{"id":12124,"date":"2026-04-04T05:30:56","date_gmt":"2026-04-04T09:30:56","guid":{"rendered":"https:\/\/ermdigital.com\/index.php\/2026\/04\/04\/la-ia-se-ha-construido-saqueando-el-contenido-de-internet-ahora-hay-gente-que-quiere-cobrar-por-permitirlo\/"},"modified":"2026-04-04T05:30:56","modified_gmt":"2026-04-04T09:30:56","slug":"la-ia-se-ha-construido-saqueando-el-contenido-de-internet-ahora-hay-gente-que-quiere-cobrar-por-permitirlo","status":"publish","type":"post","link":"https:\/\/ermdigital.com\/?p=12124","title":{"rendered":"La IA se ha construido saqueando el contenido de Internet. Ahora hay gente que quiere cobrar por permitirlo"},"content":{"rendered":"<p>\n      <img decoding=\"async\" src=\"https:\/\/i.blogs.es\/24a3de\/seedance\/1024_2000.jpeg\" alt=\"La IA se ha construido saqueando el contenido de Internet. Ahora hay gente que quiere cobrar por permitirlo\">\n    <\/p>\n<p>Es una queja recurrente: los modelos de IA <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/robotica-e-ia\/polemica-que-ia-roba-obras-su-entrenamiento-union-europea-tiene-solucion-que-licencien\" data-vars-post-title=\"La Comisi\u00f3n Europea quiere que las IA comiencen a hacer lo que se han negado en rotundo: pagar por usar contenido\" data-vars-post-url=\"https:\/\/www.xataka.com\/robotica-e-ia\/polemica-que-ia-roba-obras-su-entrenamiento-union-europea-tiene-solucion-que-licencien\">devoran contenido de forma industrial<\/a>. Para lograr el conjunto de datos con los que se entrena un modelo se necesitan <strong>bots rastreadores<\/strong>. Cada compa\u00f1\u00eda tiene los suyos: OpenAI usa GPTBot, para Gemini se emplea Googlebot, mientras que Anthropic se apoya en ClaudeBot. Son succionadores de informaci\u00f3n y hacen lo que se denomina <em>scraping<\/em>. Recorren millones de p\u00e1gina web. En cada una descargan el HTML, extraen el texto limpio y almacenan los enlaces para seguir su batida digital.<\/p>\n<p><!-- BREAK 1 --><\/p>\n<p>Una vez entrenados, los modelos llaman a herramientas de b\u00fasqueda web si no tienen suficiente informaci\u00f3n para resolver una consulta. Esto suele ocurrir con temas de actualidad o sobre los que han aparecido nuevos detalles desde que se entren\u00f3 el modelo. Cuando esto sucede, un nuevo bot extrae contenido de los sitios web que necesita para aderezar la respuesta que dar\u00e1 la IA.<\/p>\n<p>Una din\u00e1mica que conlleva problemas. El m\u00e1s visible est\u00e1 relacionado con la propiedad intelectual y quedaba patente al ver las im\u00e1genes que generaba ChatGPT con estilo del Studio Ghibli o los v\u00eddeos <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/aplicaciones\/china-ha-logrado-crear-ia-que-ha-hecho-temblar-a-hollywood-a-disney-no-le-ha-hecho-pizca-gracia\" data-vars-post-title=\"Seedance 2.0 ha inundado las redes de v\u00eddeos generados por IA con contenido de Disney. Y Disney ha levantado el tel\u00e9fono\" data-vars-post-url=\"https:\/\/www.xataka.com\/aplicaciones\/china-ha-logrado-crear-ia-que-ha-hecho-temblar-a-hollywood-a-disney-no-le-ha-hecho-pizca-gracia\">hechos con Seedance 2.0<\/a>, en los que aparece la imagen de actores reales en escenas generadas artificialmente.\u00a0<\/p>\n<p><!-- BREAK 2 --><\/p>\n<div class=\"article-asset article-asset-normal article-asset-center\">\n<div class=\"desvio-container\">\n<div class=\"desvio\">\n<div class=\"desvio-figure js-desvio-figure\">\n    <a href=\"https:\/\/www.xataka.com\/aplicaciones\/china-ha-logrado-crear-ia-que-ha-hecho-temblar-a-hollywood-a-disney-no-le-ha-hecho-pizca-gracia\" class=\"pivot-outboundlink\" data-vars-post-title=\"Seedance 2.0 ha inundado las redes de v\u00eddeos generados por IA con contenido de Disney. Y Disney ha levantado el tel\u00e9fono\"><br \/>\n     <img loading=\"lazy\" decoding=\"async\" alt=\"Seedance 2.0 ha inundado las redes de v\u00eddeos generados por IA con contenido de Disney. Y Disney ha levantado el tel\u00e9fono\" width=\"375\" height=\"142\" src=\"https:\/\/i.blogs.es\/8dcf59\/disney\/375_142.jpeg\"><br \/>\n    <\/a>\n   <\/div>\n<div class=\"desvio-summary\">\n<div class=\"desvio-taxonomy js-desvio-taxonomy\">\n     <a href=\"https:\/\/www.xataka.com\/aplicaciones\/china-ha-logrado-crear-ia-que-ha-hecho-temblar-a-hollywood-a-disney-no-le-ha-hecho-pizca-gracia\" class=\"desvio-taxonomy-anchor pivot-outboundlink\" data-vars-post-title=\"Seedance 2.0 ha inundado las redes de v\u00eddeos generados por IA con contenido de Disney. Y Disney ha levantado el tel\u00e9fono\">En Xataka<\/a>\n    <\/div>\n<p>    <a href=\"https:\/\/www.xataka.com\/aplicaciones\/china-ha-logrado-crear-ia-que-ha-hecho-temblar-a-hollywood-a-disney-no-le-ha-hecho-pizca-gracia\" class=\"desvio-title js-desvio-title pivot-outboundlink\" data-vars-post-title=\"Seedance 2.0 ha inundado las redes de v\u00eddeos generados por IA con contenido de Disney. Y Disney ha levantado el tel\u00e9fono\">Seedance 2.0 ha inundado las redes de v\u00eddeos generados por IA con contenido de Disney. Y Disney ha levantado el tel\u00e9fono<\/a>\n   <\/div>\n<\/p><\/div>\n<\/p><\/div>\n<\/div>\n<p>En los \u00faltimos tres a\u00f1os han proliferado los <strong>litigios <\/strong>por infracci\u00f3n del copyright. Es de sobra conocida <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/robotica-e-ia\/the-new-york-times-demanda-a-microsoft-a-openai-porque-no-quiere-que-chatbot-mate-periodismo\" data-vars-post-title=\"The New York Times demanda a Microsoft y a OpenAI porque no quiere que un chatbot mate el periodismo \" data-vars-post-url=\"https:\/\/www.xataka.com\/robotica-e-ia\/the-new-york-times-demanda-a-microsoft-a-openai-porque-no-quiere-que-chatbot-mate-periodismo\">la demanda del New York Times a Microsoft y OpenAI<\/a>, acus\u00e1ndolos de utilizar millones de sus art\u00edculos para entrenar ChatGPT. Antes incluso de esta acusaci\u00f3n, una agrupaci\u00f3n de artistas <a rel=\"noopener, noreferrer\" href=\"https:\/\/jipel.law.nyu.edu\/andersen-v-stability-ai-the-landmark-case-unpacking-the-copyright-risks-of-ai-image-generators\/\">demand\u00f3 a generadores de im\u00e1genes como Stability AI y Midjourney<\/a>.<\/p>\n<p><!-- BREAK 3 --><\/p>\n<p>Medios de comunicaci\u00f3n y asociaciones de derechos de autor tambi\u00e9n han emprendido <a rel=\"noopener, noreferrer\" href=\"https:\/\/www.reuters.com\/legal\/government\/perplexity-asks-court-trim-new-york-times-copyright-case-2026-03-02\/\">acciones legales contra Perplexity<\/a>, al igual que contra Meta, aunque esta de momento <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/legislacion-y-derechos\/anthropic-entreno-su-ia-millones-libros-copyright-a-juez-eso-le-ha-parecido-correctisimo-gran-asterisco\" data-vars-post-title=\"La gran inc\u00f3gnita de la IA era si pod\u00eda sobrevivir a las demandas por infringir copyright. Y ya tenemos la respuesta\n\" data-vars-post-url=\"https:\/\/www.xataka.com\/legislacion-y-derechos\/anthropic-entreno-su-ia-millones-libros-copyright-a-juez-eso-le-ha-parecido-correctisimo-gran-asterisco\">ha salido bien parada<\/a>. En 2025, OpenAI ten\u00eda tantos casos por violaci\u00f3n de derechos de autor que logr\u00f3 <a rel=\"noopener, noreferrer\" href=\"https:\/\/www.reuters.com\/legal\/litigation\/openai-copyright-lawsuits-authors-new-york-times-consolidated-manhattan-2025-04-03\/\">agrupar una buena parte de ellos en un solo tribunal<\/a> de Nueva York, para facilitar su defensa.<\/p>\n<div class=\"article-asset-image article-asset-normal article-asset-center\">\n<div class=\"asset-content\">\n<p>   <img decoding=\"async\" alt=\"seedance\" class=\"centro_sinmarco\" src=\"https:\/\/i.blogs.es\/a41976\/screenshot-2026-02-20-at-5.05.46-e2-80-afpm\/450_1000.jpeg\"><\/p><\/div>\n<\/div>\n<p>Ante una demanda colectiva de autores, la soluci\u00f3n de Anthropic fue llegar a un acuerdo. Eso s\u00ed, oneroso: tuvo que <a rel=\"noopener, noreferrer\" href=\"https:\/\/www.theguardian.com\/technology\/2025\/sep\/05\/anthropic-settlement-ai-book-lawsuit\">desembolsar unos 1.500 millones de d\u00f3lares<\/a>. Era el equivalente a 3.000 d\u00f3lares por cada uno de los 482.460 libros que admiti\u00f3 haber descargado il\u00edcitamente para entrenar a su IA.<\/p>\n<p><!-- BREAK 4 --><\/p>\n<p>El ambiente ha llevado a las<strong> empresas desarrolladoras <\/strong>de IA a licenciar contenido. OpenAI lleg\u00f3 a un acuerdo con el grupo medi\u00e1tico News Corp para tener acceso a sus informaciones durante cinco a\u00f1os <a rel=\"noopener, noreferrer\" href=\"https:\/\/www.wsj.com\/business\/media\/openai-news-corp-strike-deal-23f186ba\">a cambio de 250 millones de d\u00f3lares<\/a>. Tambi\u00e9n ha sellado alianzas con la agencia Associated Press o los grupos Cond\u00e9 Nast y Axel Springer. Meta firm\u00f3 con la propia News Corp y tambi\u00e9n con la agencia Reuters. Mientras que Google y, de nuevo OpenAI, <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/empresas-y-economia\/reddit-se-alio-google-para-alimentar-su-ia-ahora-ha-hecho-openai\" data-vars-post-title=\"Reddit ya se ali\u00f3 con Google para su IA. Ahora ha hecho lo mismo con OpenAI\" data-vars-post-url=\"https:\/\/www.xataka.com\/empresas-y-economia\/reddit-se-alio-google-para-alimentar-su-ia-ahora-ha-hecho-openai\">pagan a la plataforma Reddit por entrenar sus modelos<\/a>.<\/p>\n<p>Ir\u00f3nicamente, quiz\u00e1 la alianza m\u00e1s sonada ha sido la de OpenAI <a rel=\"noopener, noreferrer\" href=\"https:\/\/openai.com\/es-ES\/index\/disney-sora-agreement\/\">con Disney<\/a>. Un acuerdo sellado a finales del pasado a\u00f1o que permit\u00eda al generador de v\u00eddeo Sora utilizar los personajes de la productora, incluidos los de franquicias como Marvel, Star Wars o Pixar. Aunque los t\u00e9rminos han quedado en suspenso con el reciente <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/empresas-y-economia\/cierre-sora-senal-openai-da-paso-atras-carrera-ia-para-recalibrarse-al-completo\" data-vars-post-title=\"El cierre de Sora es una se\u00f1al inquietante: OpenAI da un paso atr\u00e1s en la carrera de la IA para recalibrarse al completo\" data-vars-post-url=\"https:\/\/www.xataka.com\/empresas-y-economia\/cierre-sora-senal-openai-da-paso-atras-carrera-ia-para-recalibrarse-al-completo\">cierre de la app<\/a>.<\/p>\n<p><!-- BREAK 5 --><\/p>\n<p>Pero la violaci\u00f3n de los derechos de autor no es la \u00fanica sombra del rastreo indiscriminado de los bots. Los sitios web se quejan porque si su contenido se regurgita mediante una IA, el usuario no visita la p\u00e1gina web, de manera que se pierde tr\u00e1fico y se pierde negocio.\u00a0<\/p>\n<div class=\"article-asset-image article-asset-normal article-asset-center\">\n<div class=\"asset-content\">\n<p>   <img decoding=\"async\" alt=\"seedance\" class=\"centro_sinmarco\" src=\"https:\/\/i.blogs.es\/28c002\/httpssubstack-post-media.s3.amaz\/450_1000.jpeg\"><\/p><\/div>\n<\/div>\n<p>La voracidad de los bots, adem\u00e1s, puede provocar incidencias t\u00e9cnicas. El CEO de la web especializada en reparaci\u00f3n iFixit afirm\u00f3 que el bot de Anthropic visit\u00f3 su sitio <strong>un mill\u00f3n de veces<\/strong> en un d\u00eda. El caso de la plataforma Freelancer fue a\u00fan peor. En cuatro horas recibi\u00f3 casi cuatro millones de peticiones. Este <a rel=\"noopener, noreferrer\" href=\"https:\/\/www.theregister.com\/2024\/07\/30\/taming_ai_content_crawlers\/\">aluvi\u00f3n de visitas<\/a> supone m\u00e1s costes en c\u00f3mputo a los portales web y puede saturar los servidores hasta degradar la experiencia de los usuarios humanos.<\/p>\n<p><!-- BREAK 6 --><\/p>\n<p>Con el fin de echarle el lazo a los bots de IA el pasado a\u00f1o se cre\u00f3 el RSL Collective. De esta organizaci\u00f3n nace el est\u00e1ndar abierto RSL (Really Simple Licensing), que pretende que cada sitio web pueda controlar el acceso de los bots a su contenido. Lo respaldan plataformas como Yahoo, Reddit, Medium o Quora y uno de sus principales objetivos es proporcionar una f\u00f3rmula universal para que las p\u00e1ginas web puedan licenciar su contenido.<\/p>\n<h2><strong>Un Spotify para el contenido de Internet<\/strong><\/h2>\n<p>RSL permite a cada web definir cu\u00e1les de sus p\u00e1ginas est\u00e1n disponibles para los bots, qu\u00e9 p\u00e1ginas podr\u00e1n usar solo con citar a la web como fuente y por cu\u00e1les tendr\u00e1n que pagar. Todo se hace a trav\u00e9s del archivo robots.txt, un documento que ofrece instrucciones simples a los bots para navegar en cada web. Con el nuevo est\u00e1ndar se pueden crear reglas m\u00e1s complejas.<\/p>\n<p><!-- BREAK 7 --><\/p>\n<p>\u201cSomos la llave para abrir las puertas. Lo que hacemos es dar a las p\u00e1ginas la infraestructura, los est\u00e1ndares, para que puedan poner sus propios t\u00e9rminos de uso\u201d, resume Doug Leeds, antiguo CEO del buscador Ask.com y uno de los fundadores de la iniciativa. Su socio es Eckart Walther, que fuera cocreador del <strong>est\u00e1ndar RSS<\/strong> (Really Simple Syndication), de donde le viene el nombre a RSL, y tambi\u00e9n su filosof\u00eda de fondo.<\/p>\n<div class=\"article-asset article-asset-normal article-asset-center\">\n<div class=\"desvio-container\">\n<div class=\"desvio\">\n<div class=\"desvio-figure js-desvio-figure\">\n    <a href=\"https:\/\/www.xataka.com\/legislacion-y-derechos\/todas-grandes-ia-han-ignorado-leyes-copyright-alucinante-que-sigue-haber-consecuencias\" class=\"pivot-outboundlink\" data-vars-post-title=\"Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias \"><br \/>\n     <img loading=\"lazy\" decoding=\"async\" alt=\"Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias \" width=\"375\" height=\"142\" src=\"https:\/\/i.blogs.es\/07a4ca\/meta-libros\/375_142.jpeg\"><br \/>\n    <\/a>\n   <\/div>\n<div class=\"desvio-summary\">\n<div class=\"desvio-taxonomy js-desvio-taxonomy\">\n     <a href=\"https:\/\/www.xataka.com\/legislacion-y-derechos\/todas-grandes-ia-han-ignorado-leyes-copyright-alucinante-que-sigue-haber-consecuencias\" class=\"desvio-taxonomy-anchor pivot-outboundlink\" data-vars-post-title=\"Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias \">En Xataka<\/a>\n    <\/div>\n<p>    <a href=\"https:\/\/www.xataka.com\/legislacion-y-derechos\/todas-grandes-ia-han-ignorado-leyes-copyright-alucinante-que-sigue-haber-consecuencias\" class=\"desvio-title js-desvio-title pivot-outboundlink\" data-vars-post-title=\"Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias \">Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias <\/a>\n   <\/div>\n<\/p><\/div>\n<\/p><\/div>\n<\/div>\n<p>Leeds puntualiza que su organizaci\u00f3n no se ocupa de bloquear bots. Si el propietario de una web decide hacerlo, solo tiene que especificarlo en las instrucciones de RSL y aqu\u00ed entran en juego otros actores. Cloudflare, Akami o Fastly proporcionan este servicio. Aunque la idea es incentivar un pago justo por el contenido.\u00a0<\/p>\n<p><!-- BREAK 8 --><\/p>\n<p>Para entender el funcionamiento, Leeds ofrece un ejemplo pr\u00e1ctico: \u201cSi una compa\u00f1\u00eda, pongamos que fuera OpenAI, licencia el corpus entero de nuestro repositorio tendr\u00eda el derecho a usar toda esa informaci\u00f3n. Pagar\u00eda un precio fijo, una tarifa plana, y no pagar\u00e1 m\u00e1s si utiliza m\u00e1s informaci\u00f3n. Cuando el contenido se utilice en sus modelos, tomaremos el dinero que nos han dado y pagaremos al sitio cuyo contenido OpenAI ha utilizado. Cuanto m\u00e1s utilicen tu contenido m\u00e1s dinero recibir\u00e1s\u201d.<\/p>\n<div class=\"article-asset-image article-asset-normal article-asset-center\">\n<div class=\"asset-content\">\n<div class=\"caption-img \">\n                    <a rel=\"noopener, noreferrer\" href=\"https:\/\/unsplash.com\/es\/fotos\/una-computadora-portatil-sentada-encima-de-una-cama-Eilz6WqzC5o\"><\/p>\n<p>    <img decoding=\"async\" alt=\"Spotify\" class=\"centro_sinmarco\" src=\"https:\/\/i.blogs.es\/93942d\/photo-1643208589893-ade2c3fbbcb4\/450_1000.jpeg\"><br \/>\n     <\/a><\/p>\n<p>        <span>(Unsplash)<\/span>\n   <\/div>\n<\/p><\/div>\n<\/div>\n<p>Leeds compara la f\u00f3rmula con Spotify o Apple Music. La esencia es <strong>una tarifa plana<\/strong> que despu\u00e9s se reparte entre las webs que han visitado los bots. Ya hay m\u00e1s de 1.500 compa\u00f1\u00edas creadoras de contenido que apoyan la iniciativa. Aunque no es el \u00fanico proyecto que busca retribuir a los creadores.<\/p>\n<p><!-- BREAK 9 --><\/p>\n<p>Cloudflare, proveedor de CDN y servicios de backend, tiene su propio sistema para prevenir el llamado \u2018scraping\u2019. Y dentro de este programa cuenta con una funcionalidad en beta privada que permite rentabilizar el acceso a los contenidos. Se denomina \u2018Pay Per Crawl\u2019 y el nombre no puede ser m\u00e1s expl\u00edcito. \u201cSirve como puente entre los editores y los modelos de IA en base a una din\u00e1mica de mercado. Permite a los creadores controlar y monetizar el acceso de los rastreadores de IA al contenido\u201d, cuenta Lara Cohen, vicepresidenta de Strategic Partnerships de Cloudflare.<\/p>\n<p><!-- BREAK 10 --><\/p>\n<h2><strong>Por qu\u00e9 OpenAI, Google, Anthropic querr\u00edan pagar por el contenido<\/strong><\/h2>\n<p>Ante estas iniciativas la duda surge por s\u00ed sola. Las compa\u00f1\u00edas que desarrollan modelos de IA han rastreado Internet a su antojo hasta ahora. \u00bfPor qu\u00e9 ahora estar\u00edan dispuestas a pagar por lo que han obtenido de manera gratuita?<\/p>\n<p>Leeds tiene claro que OpenAI, Google, Anthropic y el resto de grandes desarrolladoras de IA preferir\u00edan \u201clicenciar el contenido a robarlo\u201d. Pero a d\u00eda de hoy esto significar\u00eda tener que cerrar <strong>cientos de miles de acuerdos<\/strong>, una perspectiva inviable. Adem\u00e1s, hay otro motivo.<\/p>\n<p><!-- BREAK 11 --><\/p>\n<p>\u201cEstas compa\u00f1\u00edas gastan enormes cantidades de potencia de c\u00f3mputo y de procesamiento para tomar un contenido y mezclarlo con otros contenidos no originales. Y as\u00ed creen que no tendr\u00e1n muchos problemas legales, porque no tienen derechos para simplemente ofrecer el contenido original\u201d, explica Leeds. \u201cEl resultado es que no entregan las mejores respuestas. Mientras que licenciar el contenido les permitir\u00eda ofrecer las mejores respuestas y, adem\u00e1s, ahorrar grandes cantidades de dinero en computaci\u00f3n\u201d.<\/p>\n<p><!-- BREAK 12 --><\/p>\n<div class=\"article-asset article-asset-normal article-asset-center\">\n<div class=\"desvio-container\">\n<div class=\"desvio\">\n<div class=\"desvio-figure js-desvio-figure\">\n    <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/openai-ha-cogido-todo-que-ha-querido-internet-para-entrenar-sus-modelos-ahora-acusa-a-deepseek-usar-sus-datos\" class=\"pivot-outboundlink\" data-vars-post-title=\"OpenAI ha cogido todo lo que ha querido de internet para entrenar su IA. Ahora acusa a DeepSeek de robar sus datos\"><br \/>\n     <img loading=\"lazy\" decoding=\"async\" alt=\"OpenAI ha cogido todo lo que ha querido de internet para entrenar su IA. Ahora acusa a DeepSeek de robar sus datos\" width=\"375\" height=\"142\" src=\"https:\/\/i.blogs.es\/443f46\/sam-deep\/375_142.jpeg\"><br \/>\n    <\/a>\n   <\/div>\n<div class=\"desvio-summary\">\n<div class=\"desvio-taxonomy js-desvio-taxonomy\">\n     <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/openai-ha-cogido-todo-que-ha-querido-internet-para-entrenar-sus-modelos-ahora-acusa-a-deepseek-usar-sus-datos\" class=\"desvio-taxonomy-anchor pivot-outboundlink\" data-vars-post-title=\"OpenAI ha cogido todo lo que ha querido de internet para entrenar su IA. Ahora acusa a DeepSeek de robar sus datos\">En Xataka<\/a>\n    <\/div>\n<p>    <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/openai-ha-cogido-todo-que-ha-querido-internet-para-entrenar-sus-modelos-ahora-acusa-a-deepseek-usar-sus-datos\" class=\"desvio-title js-desvio-title pivot-outboundlink\" data-vars-post-title=\"OpenAI ha cogido todo lo que ha querido de internet para entrenar su IA. Ahora acusa a DeepSeek de robar sus datos\">OpenAI ha cogido todo lo que ha querido de internet para entrenar su IA. Ahora acusa a DeepSeek de robar sus datos<\/a>\n   <\/div>\n<\/p><\/div>\n<\/p><\/div>\n<\/div>\n<p>Esto quiere decir que cuando pides una receta a ChatGPT o a Gemini te genera una respuesta que es la mezcla de <strong>varias recetas<\/strong> de las que ha extra\u00eddo informaci\u00f3n. Aparentemente funciona bien. Tiene coherencia, los ingredientes son los esperados. No es como para envenenarte si la sigues. \u201cPero no est\u00e1 usando una sola receta\u201d, matiza Leeds. \u201cPuede decirte que uses un ingrediente de un sitio y sacar el tiempo de cocci\u00f3n de otro. Y quiz\u00e1s el tiempo de cocci\u00f3n no es el apropiado para ese ingrediente, porque no era la misma receta. As\u00ed que descubrir\u00e1s que no has cocinado la comida lo suficiente cuando ya sea tarde\u201d.<\/p>\n<p><!-- BREAK 13 --><\/p>\n<p>El cofundador de RSL cree que los modelos de IA podr\u00edan ofrecer una sola receta o una serie de opciones. Algo que no parece muy diferente a lo que ya hace el buscador de Google. Pero Leeds s\u00ed cree que el modelo de IA, el LLM, ofrece un valor a la b\u00fasqueda. Tendr\u00eda un papel contextual.<\/p>\n<p><!-- BREAK 14 --><\/p>\n<div class=\"article-asset-image article-asset-normal article-asset-center\">\n<div class=\"asset-content\">\n<div class=\"caption-img \">\n                    <a rel=\"noopener, noreferrer\" href=\"https:\/\/unsplash.com\/es\/fotos\/edificios-de-hormigon-marron-En_wELYYhD4\"><\/p>\n<p>    <img decoding=\"async\" alt=\"nyt\" class=\"centro_sinmarco\" src=\"https:\/\/i.blogs.es\/8cb1af\/photo-1538067364236-2764397c1189\/450_1000.jpeg\"><br \/>\n     <\/a><\/p>\n<p>        <span>(Unsplash)<\/span>\n   <\/div>\n<\/p><\/div>\n<\/div>\n<p>\u201cEl LLM te puede decir que utilices una de las recetas si lo que quieres es hacerlo sencillo o que una lleva m\u00e1s tiempo y otra menos\u201d, se\u00f1ala. \u201cCreo que la IA es mejor producto que las b\u00fasquedas tradicionales. El problema es que comete fallos y tiene un alto coste. Y aparte de esto, lo cierto es que no es sostenible. Si las empresas siguen recopilando contenido sin pagar por \u00e9l, m\u00e1s pronto que tarde no habr\u00e1 contenido que recopilar\u201d, concluye, aludiendo a la p\u00e9rdida de ingresos que sufrir\u00e1n los creadores si se les salta en la cadena de suministro de informaci\u00f3n.<\/p>\n<p><!-- BREAK 15 --><\/p>\n<p>Pagar por los contenidos supondr\u00eda un desembolso para las compa\u00f1\u00edas de IA, pero desde el RSL Collective creen que solo<strong> se mover\u00eda dinero <\/strong>de un sitio a otro. \u201cEl coste de la licencia provendr\u00e1 de la cantidad destinada al c\u00f3mputo\u201d, destaca Leeds. \u201cLas compa\u00f1\u00edas se gastan miles de millones de d\u00f3lares en c\u00f3mputo pero casi nada en informaci\u00f3n. Nuestra f\u00f3rmula no tendr\u00eda tanto impacto en sus m\u00e1rgenes de beneficio porque se ahorrar\u00e1n mucho dinero en procesamiento y lo podr\u00e1n destinar a licencias\u201d.<\/p>\n<p>A tenor del enrevesado panorama relativo a los derechos de autor y la IA, las empresas desarrolladoras tendr\u00edan otra ventaja. \u201cTambi\u00e9n ahorrar\u00e1n mucho dinero en defensa legal y litigaci\u00f3n, porque no les volver\u00e1n a demandar\u201d, a\u00f1ade Leeds, quien admite que a\u00fan no han comenzado las conversaciones con las empresas de IA. En este momento trabajan en garantizarse los apoyos suficientes, en formular los t\u00e9rminos de los acuerdos de licencia y su valor econ\u00f3mico. El inicio de negociaciones podr\u00eda empezar en unas semanas.<\/p>\n<p><!-- BREAK 16 --><\/p>\n<h2><strong>El plan B: bloquear el acceso al contenido<\/strong><\/h2>\n<p>El enfoque de Cloudflare ante los bots rastreadores es m\u00e1s t\u00e9cnico. Su programa <a rel=\"noopener, noreferrer\" href=\"https:\/\/www.cloudflare.com\/es-es\/ai-crawl-control\/\">AI Crawl Control<\/a> identifica a este tipo de herramientas cuando entran en una p\u00e1gina web. Las califica como una clase distinta de tr\u00e1fico en vez de visitantes humanos. As\u00ed lo cuenta Lara Cohen: \u201cProporciona visibilidad y control sobre el \u2018scraping\u2019 no autorizado a trav\u00e9s de un directorio global, actualizado din\u00e1micamente, de rastreadores de IA conocidos.\u00a0Los propietarios de los sitios web pueden bloquear a estos agentes f\u00e1cilmente en todo su dominio o en p\u00e1ginas espec\u00edficas de alto valor\u201d.<\/p>\n<p><!-- BREAK 17 --><\/p>\n<p>La idea plantea un Internet basado en permisos de acceso. Existen muchos bots \u00fatiles, necesarios para que una p\u00e1gina web aparezca en los resultados de Google o para monitorizar el tiempo de actividad. Cloudflare mantiene <strong>un registro de bots verificados<\/strong>, que deben cumplir con ciertos est\u00e1ndares de transparencia, identidad y prop\u00f3sito declarados, para facilitar su control.<\/p>\n<div class=\"article-asset article-asset-normal article-asset-center\">\n<div class=\"desvio-container\">\n<div class=\"desvio\">\n<div class=\"desvio-figure js-desvio-figure\">\n    <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/ia-como-chatgpt-posible-gracias-al-uso-indiscriminado-contenido-online-cloudflare-acaba-decir-que-se-acabo\" class=\"pivot-outboundlink\" data-vars-post-title=\"La IA como ChatGPT es posible gracias al uso indiscriminado del contenido online. Cloudflare acaba de decir que se acab\u00f3\"><br \/>\n     <img loading=\"lazy\" decoding=\"async\" alt=\"La IA como ChatGPT es posible gracias al uso indiscriminado del contenido online. Cloudflare acaba de decir que se acab\u00f3\" width=\"375\" height=\"142\" src=\"https:\/\/i.blogs.es\/72d77d\/solen-feyissa-5ungze6kfzo-unsplash\/375_142.jpeg\"><br \/>\n    <\/a>\n   <\/div>\n<div class=\"desvio-summary\">\n<div class=\"desvio-taxonomy js-desvio-taxonomy\">\n     <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/ia-como-chatgpt-posible-gracias-al-uso-indiscriminado-contenido-online-cloudflare-acaba-decir-que-se-acabo\" class=\"desvio-taxonomy-anchor pivot-outboundlink\" data-vars-post-title=\"La IA como ChatGPT es posible gracias al uso indiscriminado del contenido online. Cloudflare acaba de decir que se acab\u00f3\">En Xataka<\/a>\n    <\/div>\n<p>    <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/ia-como-chatgpt-posible-gracias-al-uso-indiscriminado-contenido-online-cloudflare-acaba-decir-que-se-acabo\" class=\"desvio-title js-desvio-title pivot-outboundlink\" data-vars-post-title=\"La IA como ChatGPT es posible gracias al uso indiscriminado del contenido online. Cloudflare acaba de decir que se acab\u00f3\">La IA como ChatGPT es posible gracias al uso indiscriminado del contenido online. Cloudflare acaba de decir que se acab\u00f3<\/a>\n   <\/div>\n<\/p><\/div>\n<\/p><\/div>\n<\/div>\n<p>Pero el programa tambi\u00e9n tiene sus propios m\u00e9todos para evaluar el tr\u00e1fico que entra en una web. \u201cM\u00e1s all\u00e1 de las simples verificaciones de identidad, nuestro sistema utiliza detecci\u00f3n heur\u00edstica avanzada y modelos de aprendizaje autom\u00e1tico para identificar las huellas digitales \u00fanicas y los patrones de comportamiento de los \u2018scrapers\u2019 de IA\u201d, destaca la vicepresidenta de Strategic Partnerships de Cloudflare. \u201cAs\u00ed garantizamos que incluso los bots que intentan disfrazar su identidad sean neutralizados antes de que puedan ingerir su contenido\u201d.<\/p>\n<p><!-- BREAK 18 --><\/p>\n<p>Si los bots ignoran las pol\u00edticas definidas por el sitio web, la compa\u00f1\u00eda tiene otra arma. La denominan <strong>AI Labyrinth<\/strong>. \u201cSe activa cuando un rastreador es identificado como no conforme o de alto riesgo\u201d, expone Cohen. \u201cCloudflare inyecta enlaces invisibles de tipo \u2018no-follow\u2019 en el HTML de su sitio que son indetectables para los humanos pero son irresistibles para los \u2018scrapers\u2019. Estos enlaces conducen a un laberinto de p\u00e1ginas se\u00f1uelo generadas por IA que desperdician los recursos del \u2018scraper\u2019 y contaminan los datos que intenta robar\u201d.<\/p>\n<div class=\"article-asset-image article-asset-normal article-asset-center\">\n<div class=\"asset-content\">\n<div class=\"caption-img \">\n                    <a rel=\"noopener, noreferrer\" href=\"https:\/\/unsplash.com\/es\/fotos\/una-persona-sosteniendo-un-telefono-celular-en-la-mano-Aj7cDaR6QXs\"><\/p>\n<p>    <img decoding=\"async\" alt=\"Photo 1712002641088 1191ef635cf2\" class=\"centro_sinmarco\" src=\"https:\/\/i.blogs.es\/f83325\/photo-1712002641088-1191ef635cf2\/450_1000.jpeg\"><br \/>\n     <\/a><\/p>\n<p>        <span>(Unsplash)<\/span>\n   <\/div>\n<\/p><\/div>\n<\/div>\n<p>Las p\u00e1ginas de esta trampa las genera Cloudflare con un modelo de IA. \u201cA medida que el bot rastrea m\u00e1s profundamente, encuentra m\u00e1s enlaces, quedando atrapado en un bucle infinito de datos sin sentido\u201d, resalta Cohen, y explica que esto obliga al agente a desperdiciar sus propios ciclos de c\u00f3mputo y ancho de banda en contenido in\u00fatil. De esta forma, el coste de rastrear ese sitio web ser\u00e1 mucho mayor que el valor de los datos obtenidos.<\/p>\n<p><!-- BREAK 19 --><\/p>\n<p>Otros proveedores de servicios CDN tambi\u00e9n ofrecen programas de detecci\u00f3n de bots para controlar su acceso a los sitios web. Es el caso de <strong>Akami Bot Manager<\/strong> o Fastly AI Bot Management. Sin embargo, por ahora el \u00fanico est\u00e1ndar abierto que aspira a compaginar los intereses de los portales web de contenido con las compa\u00f1\u00edas desarrolladoras de IA es la iniciativa RSL.<\/p>\n<div class=\"article-asset article-asset-normal article-asset-center\">\n<div class=\"desvio-container\">\n<div class=\"desvio\">\n<div class=\"desvio-figure js-desvio-figure\">\n    <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/ia-dominaba-ajedrez-ahora-nos-esta-obligando-a-jugar-otra-manera-para-seguir-compitiendo\" class=\"pivot-outboundlink\" data-vars-post-title=\"La IA es tan buena jugando al ajedrez que est\u00e1 cambiando algo: la forma en la que los humanos lo jugamos\"><br \/>\n     <img loading=\"lazy\" decoding=\"async\" alt=\"La IA es tan buena jugando al ajedrez que est\u00e1 cambiando algo: la forma en la que los humanos lo jugamos\" width=\"375\" height=\"142\" src=\"https:\/\/i.blogs.es\/35c458\/photo-1671059451144-9047992feaee\/375_142.jpeg\"><br \/>\n    <\/a>\n   <\/div>\n<div class=\"desvio-summary\">\n<div class=\"desvio-taxonomy js-desvio-taxonomy\">\n     <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/ia-dominaba-ajedrez-ahora-nos-esta-obligando-a-jugar-otra-manera-para-seguir-compitiendo\" class=\"desvio-taxonomy-anchor pivot-outboundlink\" data-vars-post-title=\"La IA es tan buena jugando al ajedrez que est\u00e1 cambiando algo: la forma en la que los humanos lo jugamos\">En Xataka<\/a>\n    <\/div>\n<p>    <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/ia-dominaba-ajedrez-ahora-nos-esta-obligando-a-jugar-otra-manera-para-seguir-compitiendo\" class=\"desvio-title js-desvio-title pivot-outboundlink\" data-vars-post-title=\"La IA es tan buena jugando al ajedrez que est\u00e1 cambiando algo: la forma en la que los humanos lo jugamos\">La IA es tan buena jugando al ajedrez que est\u00e1 cambiando algo: la forma en la que los humanos lo jugamos<\/a>\n   <\/div>\n<\/p><\/div>\n<\/p><\/div>\n<\/div>\n<p>En todo caso, se trata de soluciones dise\u00f1adas para un Internet que cambia a pasos de gigante y donde los bots adquieren cada vez m\u00e1s presencia. En 2025 el tr\u00e1fico de estos agentes alcanz\u00f3 el 51% del total. Es la primera vez que superan al tr\u00e1fico humano a nivel global, seg\u00fan el <a rel=\"noopener, noreferrer\" href=\"https:\/\/cpl.thalesgroup.com\/ppc\/application-security\/bad-bot-report\">infome Imperva Bad Bot<\/a>, que lleva a\u00f1os analizando el escenario. No es de extra\u00f1ar que a <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/robotica-e-ia\/cuanto-sabemos-evolucion-internet-nos-acercamos-a-conclusion-bots-pueden-matarla\" data-vars-post-title=\"Cuanto m\u00e1s sabemos sobre la evoluci\u00f3n de internet m\u00e1s nos acercamos a una conclusi\u00f3n: los bots pueden matarla\" data-vars-post-url=\"https:\/\/www.xataka.com\/robotica-e-ia\/cuanto-sabemos-evolucion-internet-nos-acercamos-a-conclusion-bots-pueden-matarla\">la teor\u00eda del Internet muerto<\/a>, que vaticina una Web donde el contenido lo crean los bots y no las personas, le salgan cada vez m\u00e1s adeptos.<\/p>\n<p><!-- BREAK 20 --><\/p>\n<p>Luchar contra esto es precisamente lo que busca Leeds. \u201cNuestra cultura, cualquiera que sea la que tengas, nuestros gobiernos, los sistemas democr\u00e1ticos, nuestras vidas necesitan informaci\u00f3n producida por humanos para funcionar. Se puede agregar, sintetizar, la puede servir una IA, pero si no tenemos informaci\u00f3n creada por humanos tenemos un problema\u201d, manifiesta el cofundador de RSL.<\/p>\n<p>Dice que \u00e9l y su socio han rechazado mucho dinero de fondos de capital riesgo. \u00bfMucho? \u201cS\u00ed, millones de d\u00f3lares\u201d, y a\u00f1ade: \u201cEvidentemente, los inversores querr\u00edan que fu\u00e9ramos una compa\u00f1\u00eda que busca beneficios, para poder tener un retorno de su inversi\u00f3n. Y no me gusta la idea de que esto interfiera en nuestra misi\u00f3n. El dinero tiene que ir a los creadores y a los editores, no a los inversores\u201d. Un idealismo destinado a chocar con la realidad. O a transformarla.<\/p>\n<p><!-- BREAK 21 --><\/p>\n<p>En Xataka | <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/aplicaciones\/pleno-ascenso-meteorico-claude-code-su-codigo-ha-sido-filtrado-caramelazo-para-sus-competidores\" data-vars-post-title=\"En pleno ascenso mete\u00f3rico de Claude Code, su c\u00f3digo ha sido filtrado. Es un caramelazo para sus competidores \" data-vars-post-url=\"https:\/\/www.xataka.com\/aplicaciones\/pleno-ascenso-meteorico-claude-code-su-codigo-ha-sido-filtrado-caramelazo-para-sus-competidores\">En pleno ascenso mete\u00f3rico de Claude Code, su c\u00f3digo ha sido filtrado. Es un caramelazo para sus competidores<\/a><\/p>\n<p>En Xataka | <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/robotica-e-ia\/felicidades-programas-saber-programar-ahora-preparate-para-esperar-seis-semanas-a-que-apple-te-haga-caso\" data-vars-post-title=\"Para crear una app, antes el problema era escribir c\u00f3digo. Ahora es esperar a que la Apple te lo valide\" data-vars-post-url=\"https:\/\/www.xataka.com\/robotica-e-ia\/felicidades-programas-saber-programar-ahora-preparate-para-esperar-seis-semanas-a-que-apple-te-haga-caso\">Para crear una app, antes el problema era escribir c\u00f3digo. Ahora es esperar a que la Apple te lo valide<\/a><\/p>\n<p>En Xataka | <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/robotica-e-ia\/hay-carrera-ia-mucho-profunda-e-importante-que-china-esta-aplastando-a-sus-competidores-talento-humano\" data-vars-post-title=\"China se ha convertido en la gran cantera mundial de ingenieros. Y eso le da una ventaja enorme sobre EEUU en la IA\" data-vars-post-url=\"https:\/\/www.xataka.com\/robotica-e-ia\/hay-carrera-ia-mucho-profunda-e-importante-que-china-esta-aplastando-a-sus-competidores-talento-humano\">China se ha convertido en la gran cantera mundial de ingenieros. Y eso le da una ventaja enorme sobre EEUU en la IA<\/a><\/p>\n<p><\/p>\n<p> &#8211; <br \/> La noticia<br \/>\n      <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/ia-se-ha-construido-saqueando-contenido-internet-ahora-hay-gente-que-quiere-cobrarle-ello?utm_source=feedburner&amp;utm_medium=feed&amp;utm_campaign=04_Apr_2026\"><br \/>\n       <em> La IA se ha construido saqueando el contenido de Internet. Ahora hay gente que quiere cobrar por permitirlo <\/em><br \/>\n      <\/a><br \/>\n      fue publicada originalmente en<br \/>\n      <a href=\"https:\/\/www.xataka.com\/?utm_source=feedburner&amp;utm_medium=feed&amp;utm_campaign=04_Apr_2026\"><br \/>\n       <strong> Xataka <\/strong><br \/>\n      <\/a><br \/>\n             por <a href=\"https:\/\/www.xataka.com\/autor\/pablo-g-bejerano?utm_source=feedburner&amp;utm_medium=feed&amp;utm_campaign=04_Apr_2026\"><br \/>\n        Pablo G. Bejerano<br \/>\n       <\/a><br \/>\n      . <\/p>\n<p>\u00a0Es una queja recurrente: los modelos de IA devoran contenido de forma industrial. Para lograr el conjunto de datos con los que se entrena un modelo se necesitan bots rastreadores. Cada compa\u00f1\u00eda tiene los suyos: OpenAI usa GPTBot, para Gemini se emplea Googlebot, mientras que Anthropic se apoya en ClaudeBot. Son succionadores de informaci\u00f3n y hacen lo que se denomina scraping. Recorren millones de p\u00e1gina web. En cada una descargan el HTML, extraen el texto limpio y almacenan los enlaces para seguir su batida digital.<br \/>\nUna vez entrenados, los modelos llaman a herramientas de b\u00fasqueda web si no tienen suficiente informaci\u00f3n para resolver una consulta. Esto suele ocurrir con temas de actualidad o sobre los que han aparecido nuevos detalles desde que se entren\u00f3 el modelo. Cuando esto sucede, un nuevo bot extrae contenido de los sitios web que necesita para aderezar la respuesta que dar\u00e1 la IA.<br \/>\nUna din\u00e1mica que conlleva problemas. El m\u00e1s visible est\u00e1 relacionado con la propiedad intelectual y quedaba patente al ver las im\u00e1genes que generaba ChatGPT con estilo del Studio Ghibli o los v\u00eddeos hechos con Seedance 2.0, en los que aparece la imagen de actores reales en escenas generadas artificialmente.\u00a0<\/p>\n<p>     En Xataka<\/p>\n<p>    Seedance 2.0 ha inundado las redes de v\u00eddeos generados por IA con contenido de Disney. Y Disney ha levantado el tel\u00e9fono<\/p>\n<p>En los \u00faltimos tres a\u00f1os han proliferado los litigios por infracci\u00f3n del copyright. Es de sobra conocida la demanda del New York Times a Microsoft y OpenAI, acus\u00e1ndolos de utilizar millones de sus art\u00edculos para entrenar ChatGPT. Antes incluso de esta acusaci\u00f3n, una agrupaci\u00f3n de artistas demand\u00f3 a generadores de im\u00e1genes como Stability AI y Midjourney.<br \/>\nMedios de comunicaci\u00f3n y asociaciones de derechos de autor tambi\u00e9n han emprendido acciones legales contra Perplexity, al igual que contra Meta, aunque esta de momento ha salido bien parada. En 2025, OpenAI ten\u00eda tantos casos por violaci\u00f3n de derechos de autor que logr\u00f3 agrupar una buena parte de ellos en un solo tribunal de Nueva York, para facilitar su defensa.<\/p>\n<p>Ante una demanda colectiva de autores, la soluci\u00f3n de Anthropic fue llegar a un acuerdo. Eso s\u00ed, oneroso: tuvo que desembolsar unos 1.500 millones de d\u00f3lares. Era el equivalente a 3.000 d\u00f3lares por cada uno de los 482.460 libros que admiti\u00f3 haber descargado il\u00edcitamente para entrenar a su IA.<br \/>\nEl ambiente ha llevado a las empresas desarrolladoras de IA a licenciar contenido. OpenAI lleg\u00f3 a un acuerdo con el grupo medi\u00e1tico News Corp para tener acceso a sus informaciones durante cinco a\u00f1os a cambio de 250 millones de d\u00f3lares. Tambi\u00e9n ha sellado alianzas con la agencia Associated Press o los grupos Cond\u00e9 Nast y Axel Springer. Meta firm\u00f3 con la propia News Corp y tambi\u00e9n con la agencia Reuters. Mientras que Google y, de nuevo OpenAI, pagan a la plataforma Reddit por entrenar sus modelos.<\/p>\n<p>Ir\u00f3nicamente, quiz\u00e1 la alianza m\u00e1s sonada ha sido la de OpenAI con Disney. Un acuerdo sellado a finales del pasado a\u00f1o que permit\u00eda al generador de v\u00eddeo Sora utilizar los personajes de la productora, incluidos los de franquicias como Marvel, Star Wars o Pixar. Aunque los t\u00e9rminos han quedado en suspenso con el reciente cierre de la app.<br \/>\nPero la violaci\u00f3n de los derechos de autor no es la \u00fanica sombra del rastreo indiscriminado de los bots. Los sitios web se quejan porque si su contenido se regurgita mediante una IA, el usuario no visita la p\u00e1gina web, de manera que se pierde tr\u00e1fico y se pierde negocio.\u00a0<\/p>\n<p>La voracidad de los bots, adem\u00e1s, puede provocar incidencias t\u00e9cnicas. El CEO de la web especializada en reparaci\u00f3n iFixit afirm\u00f3 que el bot de Anthropic visit\u00f3 su sitio un mill\u00f3n de veces en un d\u00eda. El caso de la plataforma Freelancer fue a\u00fan peor. En cuatro horas recibi\u00f3 casi cuatro millones de peticiones. Este aluvi\u00f3n de visitas supone m\u00e1s costes en c\u00f3mputo a los portales web y puede saturar los servidores hasta degradar la experiencia de los usuarios humanos.<br \/>\nCon el fin de echarle el lazo a los bots de IA el pasado a\u00f1o se cre\u00f3 el RSL Collective. De esta organizaci\u00f3n nace el est\u00e1ndar abierto RSL (Really Simple Licensing), que pretende que cada sitio web pueda controlar el acceso de los bots a su contenido. Lo respaldan plataformas como Yahoo, Reddit, Medium o Quora y uno de sus principales objetivos es proporcionar una f\u00f3rmula universal para que las p\u00e1ginas web puedan licenciar su contenido.<br \/>\nUn Spotify para el contenido de Internet<br \/>\nRSL permite a cada web definir cu\u00e1les de sus p\u00e1ginas est\u00e1n disponibles para los bots, qu\u00e9 p\u00e1ginas podr\u00e1n usar solo con citar a la web como fuente y por cu\u00e1les tendr\u00e1n que pagar. Todo se hace a trav\u00e9s del archivo robots.txt, un documento que ofrece instrucciones simples a los bots para navegar en cada web. Con el nuevo est\u00e1ndar se pueden crear reglas m\u00e1s complejas.<br \/>\n\u201cSomos la llave para abrir las puertas. Lo que hacemos es dar a las p\u00e1ginas la infraestructura, los est\u00e1ndares, para que puedan poner sus propios t\u00e9rminos de uso\u201d, resume Doug Leeds, antiguo CEO del buscador Ask.com y uno de los fundadores de la iniciativa. Su socio es Eckart Walther, que fuera cocreador del est\u00e1ndar RSS (Really Simple Syndication), de donde le viene el nombre a RSL, y tambi\u00e9n su filosof\u00eda de fondo.<\/p>\n<p>     En Xataka<\/p>\n<p>    Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias <\/p>\n<p>Leeds puntualiza que su organizaci\u00f3n no se ocupa de bloquear bots. Si el propietario de una web decide hacerlo, solo tiene que especificarlo en las instrucciones de RSL y aqu\u00ed entran en juego otros actores. Cloudflare, Akami o Fastly proporcionan este servicio. Aunque la idea es incentivar un pago justo por el contenido.\u00a0<br \/>\nPara entender el funcionamiento, Leeds ofrece un ejemplo pr\u00e1ctico: \u201cSi una compa\u00f1\u00eda, pongamos que fuera OpenAI, licencia el corpus entero de nuestro repositorio tendr\u00eda el derecho a usar toda esa informaci\u00f3n. Pagar\u00eda un precio fijo, una tarifa plana, y no pagar\u00e1 m\u00e1s si utiliza m\u00e1s informaci\u00f3n. Cuando el contenido se utilice en sus modelos, tomaremos el dinero que nos han dado y pagaremos al sitio cuyo contenido OpenAI ha utilizado. Cuanto m\u00e1s utilicen tu contenido m\u00e1s dinero recibir\u00e1s\u201d.<\/p>\n<p>        (Unsplash)<\/p>\n<p>Leeds compara la f\u00f3rmula con Spotify o Apple Music. La esencia es una tarifa plana que despu\u00e9s se reparte entre las webs que han visitado los bots. Ya hay m\u00e1s de 1.500 compa\u00f1\u00edas creadoras de contenido que apoyan la iniciativa. Aunque no es el \u00fanico proyecto que busca retribuir a los creadores.<\/p>\n<p>Cloudflare, proveedor de CDN y servicios de backend, tiene su propio sistema para prevenir el llamado \u2018scraping\u2019. Y dentro de este programa cuenta con una funcionalidad en beta privada que permite rentabilizar el acceso a los contenidos. Se denomina \u2018Pay Per Crawl\u2019 y el nombre no puede ser m\u00e1s expl\u00edcito. \u201cSirve como puente entre los editores y los modelos de IA en base a una din\u00e1mica de mercado. Permite a los creadores controlar y monetizar el acceso de los rastreadores de IA al contenido\u201d, cuenta Lara Cohen, vicepresidenta de Strategic Partnerships de Cloudflare.<\/p>\n<p>Por qu\u00e9 OpenAI, Google, Anthropic querr\u00edan pagar por el contenidoAnte estas iniciativas la duda surge por s\u00ed sola. Las compa\u00f1\u00edas que desarrollan modelos de IA han rastreado Internet a su antojo hasta ahora. \u00bfPor qu\u00e9 ahora estar\u00edan dispuestas a pagar por lo que han obtenido de manera gratuita?<\/p>\n<p>Leeds tiene claro que OpenAI, Google, Anthropic y el resto de grandes desarrolladoras de IA preferir\u00edan \u201clicenciar el contenido a robarlo\u201d. Pero a d\u00eda de hoy esto significar\u00eda tener que cerrar cientos de miles de acuerdos, una perspectiva inviable. Adem\u00e1s, hay otro motivo.<\/p>\n<p>\u201cEstas compa\u00f1\u00edas gastan enormes cantidades de potencia de c\u00f3mputo y de procesamiento para tomar un contenido y mezclarlo con otros contenidos no originales. Y as\u00ed creen que no tendr\u00e1n muchos problemas legales, porque no tienen derechos para simplemente ofrecer el contenido original\u201d, explica Leeds. \u201cEl resultado es que no entregan las mejores respuestas. Mientras que licenciar el contenido les permitir\u00eda ofrecer las mejores respuestas y, adem\u00e1s, ahorrar grandes cantidades de dinero en computaci\u00f3n\u201d.<\/p>\n<p>     En Xataka<\/p>\n<p>    OpenAI ha cogido todo lo que ha querido de internet para entrenar su IA. Ahora acusa a DeepSeek de robar sus datos<\/p>\n<p>Esto quiere decir que cuando pides una receta a ChatGPT o a Gemini te genera una respuesta que es la mezcla de varias recetas de las que ha extra\u00eddo informaci\u00f3n. Aparentemente funciona bien. Tiene coherencia, los ingredientes son los esperados. No es como para envenenarte si la sigues. \u201cPero no est\u00e1 usando una sola receta\u201d, matiza Leeds. \u201cPuede decirte que uses un ingrediente de un sitio y sacar el tiempo de cocci\u00f3n de otro. Y quiz\u00e1s el tiempo de cocci\u00f3n no es el apropiado para ese ingrediente, porque no era la misma receta. As\u00ed que descubrir\u00e1s que no has cocinado la comida lo suficiente cuando ya sea tarde\u201d.<\/p>\n<p>El cofundador de RSL cree que los modelos de IA podr\u00edan ofrecer una sola receta o una serie de opciones. Algo que no parece muy diferente a lo que ya hace el buscador de Google. Pero Leeds s\u00ed cree que el modelo de IA, el LLM, ofrece un valor a la b\u00fasqueda. Tendr\u00eda un papel contextual.<\/p>\n<p>        (Unsplash)<\/p>\n<p>\u201cEl LLM te puede decir que utilices una de las recetas si lo que quieres es hacerlo sencillo o que una lleva m\u00e1s tiempo y otra menos\u201d, se\u00f1ala. \u201cCreo que la IA es mejor producto que las b\u00fasquedas tradicionales. El problema es que comete fallos y tiene un alto coste. Y aparte de esto, lo cierto es que no es sostenible. Si las empresas siguen recopilando contenido sin pagar por \u00e9l, m\u00e1s pronto que tarde no habr\u00e1 contenido que recopilar\u201d, concluye, aludiendo a la p\u00e9rdida de ingresos que sufrir\u00e1n los creadores si se les salta en la cadena de suministro de informaci\u00f3n.<br \/>\nPagar por los contenidos supondr\u00eda un desembolso para las compa\u00f1\u00edas de IA, pero desde el RSL Collective creen que solo se mover\u00eda dinero de un sitio a otro. \u201cEl coste de la licencia provendr\u00e1 de la cantidad destinada al c\u00f3mputo\u201d, destaca Leeds. \u201cLas compa\u00f1\u00edas se gastan miles de millones de d\u00f3lares en c\u00f3mputo pero casi nada en informaci\u00f3n. Nuestra f\u00f3rmula no tendr\u00eda tanto impacto en sus m\u00e1rgenes de beneficio porque se ahorrar\u00e1n mucho dinero en procesamiento y lo podr\u00e1n destinar a licencias\u201d.<br \/>\nA tenor del enrevesado panorama relativo a los derechos de autor y la IA, las empresas desarrolladoras tendr\u00edan otra ventaja. \u201cTambi\u00e9n ahorrar\u00e1n mucho dinero en defensa legal y litigaci\u00f3n, porque no les volver\u00e1n a demandar\u201d, a\u00f1ade Leeds, quien admite que a\u00fan no han comenzado las conversaciones con las empresas de IA. En este momento trabajan en garantizarse los apoyos suficientes, en formular los t\u00e9rminos de los acuerdos de licencia y su valor econ\u00f3mico. El inicio de negociaciones podr\u00eda empezar en unas semanas.<br \/>\nEl plan B: bloquear el acceso al contenido<br \/>\nEl enfoque de Cloudflare ante los bots rastreadores es m\u00e1s t\u00e9cnico. Su programa AI Crawl Control identifica a este tipo de herramientas cuando entran en una p\u00e1gina web. Las califica como una clase distinta de tr\u00e1fico en vez de visitantes humanos. As\u00ed lo cuenta Lara Cohen: \u201cProporciona visibilidad y control sobre el \u2018scraping\u2019 no autorizado a trav\u00e9s de un directorio global, actualizado din\u00e1micamente, de rastreadores de IA conocidos.\u00a0Los propietarios de los sitios web pueden bloquear a estos agentes f\u00e1cilmente en todo su dominio o en p\u00e1ginas espec\u00edficas de alto valor\u201d.<br \/>\nLa idea plantea un Internet basado en permisos de acceso. Existen muchos bots \u00fatiles, necesarios para que una p\u00e1gina web aparezca en los resultados de Google o para monitorizar el tiempo de actividad. Cloudflare mantiene un registro de bots verificados, que deben cumplir con ciertos est\u00e1ndares de transparencia, identidad y prop\u00f3sito declarados, para facilitar su control.<\/p>\n<p>     En Xataka<\/p>\n<p>    La IA como ChatGPT es posible gracias al uso indiscriminado del contenido online. Cloudflare acaba de decir que se acab\u00f3<\/p>\n<p>Pero el programa tambi\u00e9n tiene sus propios m\u00e9todos para evaluar el tr\u00e1fico que entra en una web. \u201cM\u00e1s all\u00e1 de las simples verificaciones de identidad, nuestro sistema utiliza detecci\u00f3n heur\u00edstica avanzada y modelos de aprendizaje autom\u00e1tico para identificar las huellas digitales \u00fanicas y los patrones de comportamiento de los \u2018scrapers\u2019 de IA\u201d, destaca la vicepresidenta de Strategic Partnerships de Cloudflare. \u201cAs\u00ed garantizamos que incluso los bots que intentan disfrazar su identidad sean neutralizados antes de que puedan ingerir su contenido\u201d.<br \/>\nSi los bots ignoran las pol\u00edticas definidas por el sitio web, la compa\u00f1\u00eda tiene otra arma. La denominan AI Labyrinth. \u201cSe activa cuando un rastreador es identificado como no conforme o de alto riesgo\u201d, expone Cohen. \u201cCloudflare inyecta enlaces invisibles de tipo \u2018no-follow\u2019 en el HTML de su sitio que son indetectables para los humanos pero son irresistibles para los \u2018scrapers\u2019. Estos enlaces conducen a un laberinto de p\u00e1ginas se\u00f1uelo generadas por IA que desperdician los recursos del \u2018scraper\u2019 y contaminan los datos que intenta robar\u201d.<\/p>\n<p>        (Unsplash)<\/p>\n<p>Las p\u00e1ginas de esta trampa las genera Cloudflare con un modelo de IA. \u201cA medida que el bot rastrea m\u00e1s profundamente, encuentra m\u00e1s enlaces, quedando atrapado en un bucle infinito de datos sin sentido\u201d, resalta Cohen, y explica que esto obliga al agente a desperdiciar sus propios ciclos de c\u00f3mputo y ancho de banda en contenido in\u00fatil. De esta forma, el coste de rastrear ese sitio web ser\u00e1 mucho mayor que el valor de los datos obtenidos.<br \/>\nOtros proveedores de servicios CDN tambi\u00e9n ofrecen programas de detecci\u00f3n de bots para controlar su acceso a los sitios web. Es el caso de Akami Bot Manager o Fastly AI Bot Management. Sin embargo, por ahora el \u00fanico est\u00e1ndar abierto que aspira a compaginar los intereses de los portales web de contenido con las compa\u00f1\u00edas desarrolladoras de IA es la iniciativa RSL.<\/p>\n<p>     En Xataka<\/p>\n<p>    La IA es tan buena jugando al ajedrez que est\u00e1 cambiando algo: la forma en la que los humanos lo jugamos<\/p>\n<p>En todo caso, se trata de soluciones dise\u00f1adas para un Internet que cambia a pasos de gigante y donde los bots adquieren cada vez m\u00e1s presencia. En 2025 el tr\u00e1fico de estos agentes alcanz\u00f3 el 51% del total. Es la primera vez que superan al tr\u00e1fico humano a nivel global, seg\u00fan el infome Imperva Bad Bot, que lleva a\u00f1os analizando el escenario. No es de extra\u00f1ar que a la teor\u00eda del Internet muerto, que vaticina una Web donde el contenido lo crean los bots y no las personas, le salgan cada vez m\u00e1s adeptos.<br \/>\nLuchar contra esto es precisamente lo que busca Leeds. \u201cNuestra cultura, cualquiera que sea la que tengas, nuestros gobiernos, los sistemas democr\u00e1ticos, nuestras vidas necesitan informaci\u00f3n producida por humanos para funcionar. Se puede agregar, sintetizar, la puede servir una IA, pero si no tenemos informaci\u00f3n creada por humanos tenemos un problema\u201d, manifiesta el cofundador de RSL.<br \/>\nDice que \u00e9l y su socio han rechazado mucho dinero de fondos de capital riesgo. \u00bfMucho? \u201cS\u00ed, millones de d\u00f3lares\u201d, y a\u00f1ade: \u201cEvidentemente, los inversores querr\u00edan que fu\u00e9ramos una compa\u00f1\u00eda que busca beneficios, para poder tener un retorno de su inversi\u00f3n. Y no me gusta la idea de que esto interfiera en nuestra misi\u00f3n. El dinero tiene que ir a los creadores y a los editores, no a los inversores\u201d. Un idealismo destinado a chocar con la realidad. O a transformarla.<br \/>\nEn Xataka | En pleno ascenso mete\u00f3rico de Claude Code, su c\u00f3digo ha sido filtrado. Es un caramelazo para sus competidores<br \/>\nEn Xataka | Para crear una app, antes el problema era escribir c\u00f3digo. Ahora es esperar a que la Apple te lo valide<br \/>\nEn Xataka | China se ha convertido en la gran cantera mundial de ingenieros. Y eso le da una ventaja enorme sobre EEUU en la IA<\/p>\n<p>                 &#8211;  La noticia<\/p>\n<p>        La IA se ha construido saqueando el contenido de Internet. Ahora hay gente que quiere cobrar por permitirlo <\/p>\n<p>      fue publicada originalmente en<\/p>\n<p>        Xataka <\/p>\n<p>             por<br \/>\n        Pablo G. Bejerano<\/p>\n<p>      .\u00a0\u00a0\u00a0<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Es una queja recurrente: los modelos de IA devoran contenido de forma industrial. Para lograr el conjunto de datos con los que se entrena un modelo se necesitan bots rastreadores. Cada compa\u00f1\u00eda tiene los suyos: OpenAI usa GPTBot, para Gemini se emplea Googlebot, mientras que Anthropic se apoya en ClaudeBot. Son succionadores de informaci\u00f3n y [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":12125,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"amp_status":"","footnotes":""},"categories":[6],"tags":[],"class_list":["post-12124","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ciencia-y-tecnologia"],"_links":{"self":[{"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/posts\/12124","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/ermdigital.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=12124"}],"version-history":[{"count":0,"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/posts\/12124\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/media\/12125"}],"wp:attachment":[{"href":"https:\/\/ermdigital.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=12124"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ermdigital.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=12124"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ermdigital.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=12124"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}