Ciencia y Tecnología

Anthropic entrenó su IA con millones de libros con copyright. A un juez eso le ha parecido correctísimo (con un gran asterisco)

Published

8 months ago

June 25, 2025

<p>&NewLine; <img src="https&colon;//i&period;blogs&period;es/85ad05/libros/1024&lowbar;2000&period;jpeg" alt="Anthropic entrenó su IA con millones de libros con copyright&period; A un juez eso le ha parecido correctísimo (con un gran asterisco) ">&NewLine; </p>&NewLine;<p>Anthropic acaba de lograr una victoria legal muy importante en esa batalla legal que el mundo de la IA mantiene con el copyright y los derechos de autor desde hace años&period; La sentencia, favorable a Anthropic, puede sentar un gran precedente para el resto de casos en los que las empresas de IA han sido demandadas por entrenar sus modelos con obras con copyright&period; Pero ojo, porque no ha sido una victoria total&period;</p>&NewLine;<p><&excl;-- BREAK 1 --></p>&NewLine;<p><strong>Antropic gana</strong>&period; En la demanda de tres autores contra Anthropic se acusó a la empresa de descargar gratuitamente millones de libros con copyright, además de comprar algunos de ellos para escanearlos y digitalizarlos&period; El objetivo&colon; entrenar sus modelos de IA&period; El juez William Alsup ha dejado claro <a rel="noopener, noreferrer" href="https&colon;//storage&period;courtlistener&period;com/recap/gov&period;uscourts&period;cand&period;434709/gov&period;uscourts&period;cand&period;434709&period;231&period;0&lowbar;2&period;pdf">en su sentencia</a> que &&num;8220&semi;el uso para el entrenamiento fue un uso justo&&num;8221&semi;&period; Las empresas que desarrollan modelos de IA siempre se han escudado en ese concepto del uso justo para argumentar cómo habían entrenado sus modelos con todo tipo de obras, incluidas aquellas protegidas por derechos de autor&period;</p>&NewLine;<p><&excl;-- BREAK 2 --></p>&NewLine;<div class="article-asset article-asset-normal article-asset-center">&NewLine;<div class="desvio-container">&NewLine;<div class="desvio">&NewLine;<div class="desvio-figure js-desvio-figure">&NewLine; <a href="https&colon;//www&period;xataka&period;com/robotica-e-ia/google-tiene-claro-como-va-a-entrenar-sus-modelos-ia-cogiendo-todo-que-publiquemos-internet" class="pivot-outboundlink" data-vars-post-title="Google tiene claro cómo va a entrenar sus modelos de IA&period; Cogiendo todo lo que publiquemos en internet"><br />&NewLine; <img alt="Google tiene claro cómo va a entrenar sus modelos de IA&period; Cogiendo todo lo que publiquemos en internet" width="375" height="142" src="https&colon;//i&period;blogs&period;es/04c92c/robot1/375&lowbar;142&period;jpeg"><br />&NewLine; </a>&NewLine; </div>&NewLine;<div class="desvio-summary">&NewLine;<div class="desvio-taxonomy js-desvio-taxonomy">&NewLine; <a href="https&colon;//www&period;xataka&period;com/robotica-e-ia/google-tiene-claro-como-va-a-entrenar-sus-modelos-ia-cogiendo-todo-que-publiquemos-internet" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Google tiene claro cómo va a entrenar sus modelos de IA&period; Cogiendo todo lo que publiquemos en internet">En Xataka</a>&NewLine; </div>&NewLine;<p> <a href="https&colon;//www&period;xataka&period;com/robotica-e-ia/google-tiene-claro-como-va-a-entrenar-sus-modelos-ia-cogiendo-todo-que-publiquemos-internet" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Google tiene claro cómo va a entrenar sus modelos de IA&period; Cogiendo todo lo que publiquemos en internet">Google tiene claro cómo va a entrenar sus modelos de IA&period; Cogiendo todo lo que publiquemos en internet</a>&NewLine; </div>&NewLine;</p></div>&NewLine;</p></div>&NewLine;</div>&NewLine;<p><strong>Uso justo</strong>&period; Este criterio legal mantiene que se permite un uso limitado de material protegido sin necesitar el permiso del dueño de esos derechos&period; En las leyes del copyright, una de las formas que tienen los jueces de determinar si ese tipo de actividad es un uso justo es la de examinar si ese uso fue &&num;8220&semi;transformador&&num;8221&semi;&period; O lo que es lo mismo, si a partir de esas obras se ha creado algo nuevo&period; Para Alsup &&num;8220&semi;la tecnología en cuestión es una de las más transformadoras que muchos de nosotros veremos en nuestras vidas&&num;8221&semi;&period;</p>&NewLine;<p><&excl;-- BREAK 3 --></p>&NewLine;<p><strong>Una victoria con un gran asterisco</strong>&period; Aunque el juez indicó que ese proceso de entrenamiento era un uso justo, también determinó que los autores podrían llevar a juicio a Anthropic por piratear sus obras&period; La empresa argumentó que eso estaba justificado porque era &&num;8220&semi;al menos razonablemente necesario para entrenar LLMs&&num;8221&semi;&period; Para Alsup la cuestión es precisamente que aunque acabaron comprando algunos de ellos, construyó una biblioteca enorme por la que no pagó&colon;</p>&NewLine;<p><&excl;-- BREAK 4 --></p>&NewLine;<blockquote><p>&&num;8220&semi;Anthropic descargó más de siete millones de copias piratas de libros, no pagó nada y conservó estas copias piratas en su biblioteca incluso después de decidir que no las utilizaría para entrenar a su IA (en absoluto o nunca más)&period; Los autores sostienen que Anthropic debería haber pagado por estas copias piratas de la biblioteca&period; Esta sentencia coincide en ello&&num;8221&semi;&period;</p></blockquote>&NewLine;<p><strong>El precedente de Thomson-Reuters</strong>&period; Hace unos meses <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/empresas-ia-llevan-anos-saltandose-a-torera-copyright-acaban-sufrir-inquietante-derrota-legal" data-vars-post-title="Las empresas de IA llevan años saltándose a la torera el copyright&period; Acaban de sufrir una inquietante derrota legal " data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/empresas-ia-llevan-anos-saltandose-a-torera-copyright-acaban-sufrir-inquietante-derrota-legal">Thomson Reuters ganó una demanda de 2020</a> contra una startup de IA llamada Ross Intelligence&period; Según ellos, la empresa había reproducido material de su división de investigación legal, llamada Westlaw&period; El juez rechazó los argumentos de la defensa y declaró que el argumento de uso justo no se podía aplicar en ese caso&period; La sentencia contra Anthropic va justo en la dirección opuesta y bendice ese tipo de uso&&num;8230&semi; mientras las empresas compren las obras con las que entrenan a sus modelos&period; La empresa de IA, por cierto, ya había logrado <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/universal-music-acaba-tropezar-su-demanda-anthropic-copyright-victoria-para-tecnologicas-ia" data-vars-post-title="Universal Music acaba de tropezar en su demanda contra Anthropic por copyright&colon; una victoria para las tecnológicas de IA" data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/universal-music-acaba-tropezar-su-demanda-anthropic-copyright-victoria-para-tecnologicas-ia">una pequeña victoria legal</a> en un caso previo contra Universal Music&period;</p>&NewLine;<p><&excl;-- BREAK 5 --></p>&NewLine;<div class="article-asset-video article-asset-normal">&NewLine;<div class="asset-content">&NewLine;<div class="base-asset-video">&NewLine;<div class="js-dailymotion"></div>&NewLine;</p></div>&NewLine;</p></div>&NewLine;</div>&NewLine;<p><strong>Anthropic descargó libros a destajo</strong>&period; En el juicio se desveló cómo el cofundador de Anthropic, Ben Mann, descargó en invierno de 2021 conjuntos de datos como <a rel="noopener, noreferrer" href="https&colon;//www&period;theatlantic&period;com/technology/archive/2023/09/books3-database-generative-ai-training-copyright-infringement/675363/">el llamado Books3</a> o LibGen (<a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/otros/pirate-bay-ciencia-no-desaparecera-facil-10tb-900-000-libros-estan-archivados-apoyo-varios-servidores-privados" data-vars-post-title='El "Pirate Bay" de la ciencia no desaparecerá tan fácil&colon; más de 10TB y 900&period;000 libros ya están archivados con el apoyo de varios servidores privados' data-vars-post-url="https&colon;//www&period;xataka&period;com/otros/pirate-bay-ciencia-no-desaparecera-facil-10tb-900-000-libros-estan-archivados-apoyo-varios-servidores-privados">Library Genesis</a>) que no son más que gigantescas recopilaciones de libros, muchos de los cuales están protegidos por los derechos de autor&period;</p>&NewLine;<p><&excl;-- BREAK 6 --></p>&NewLine;<p><strong>Meta está en las mismas</strong>&period; Todas las empresas que desarrollan modelos de IA los han entrenado con todo tipo de datos, incluidas obras protegidas por derechos de autor, y todas se enfrentan por tanto a una situación similar&period; <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/correos-meta-revelan-que-descargo-81-7-tb-libros-copyright-via-bittorrent-para-entrenar-sus-modelos-ia" data-vars-post-title="Los correos de Meta revelan que descargó 81,7 TB de libros con copyright vía BitTorrent para entrenar sus modelos de IA" data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/correos-meta-revelan-que-descargo-81-7-tb-libros-copyright-via-bittorrent-para-entrenar-sus-modelos-ia">Meta, por ejemplo, descargó 81,7 TB de libros con copyright</a> vía BitTorrent para entrenar sus modelos de IA&period; Eso hace que la empresa de Mark Zuckerberg pueda acabar sufriendo un destino similar al de Anthropic, que tiene ante sí un nuevo proceso judicial muy peligroso para sus finanzas&period;</p>&NewLine;<p><&excl;-- BREAK 7 --></p>&NewLine;<p><strong>Una multa potencial de miles de millones de dólares</strong>&period; Como indican en Wired, la multa mínima por este tipo de violación del copyright es de 750 dólares por libro&period; Alsup indicó que la biblioteca descargada ilegalmente de Anthropic consta de al menos siete millones de libros, y eso significa que la compañía se enfrenta a una multa potencialmente enorme&period; De momento no hay fecha para ese nuevo juicio&period;</p>&NewLine;<p><&excl;-- BREAK 8 --></p>&NewLine;<div class="article-asset article-asset-normal article-asset-center">&NewLine;<div class="desvio-container">&NewLine;<div class="desvio">&NewLine;<div class="desvio-figure js-desvio-figure">&NewLine; <a href="https&colon;//www&period;xataka&period;com/robotica-e-ia/millones-personas-vuelven-a-estar-interesadas-chatgpt-problema-que-ha-conseguido-vulnerando-derechos-autor" class="pivot-outboundlink" data-vars-post-title="Millones de personas vuelven a estar interesadas en ChatGPT&period; El problema es que lo ha conseguido vulnerando derechos de autor"><br />&NewLine; <img alt="Millones de personas vuelven a estar interesadas en ChatGPT&period; El problema es que lo ha conseguido vulnerando derechos de autor" width="375" height="142" src="https&colon;//i&period;blogs&period;es/edae77/gm93ymowqaaqdbo/375&lowbar;142&period;jpeg"><br />&NewLine; </a>&NewLine; </div>&NewLine;<div class="desvio-summary">&NewLine;<div class="desvio-taxonomy js-desvio-taxonomy">&NewLine; <a href="https&colon;//www&period;xataka&period;com/robotica-e-ia/millones-personas-vuelven-a-estar-interesadas-chatgpt-problema-que-ha-conseguido-vulnerando-derechos-autor" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Millones de personas vuelven a estar interesadas en ChatGPT&period; El problema es que lo ha conseguido vulnerando derechos de autor">En Xataka</a>&NewLine; </div>&NewLine;<p> <a href="https&colon;//www&period;xataka&period;com/robotica-e-ia/millones-personas-vuelven-a-estar-interesadas-chatgpt-problema-que-ha-conseguido-vulnerando-derechos-autor" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Millones de personas vuelven a estar interesadas en ChatGPT&period; El problema es que lo ha conseguido vulnerando derechos de autor">Millones de personas vuelven a estar interesadas en ChatGPT&period; El problema es que lo ha conseguido vulnerando derechos de autor</a>&NewLine; </div>&NewLine;</p></div>&NewLine;</p></div>&NewLine;</div>&NewLine;<p><strong>La interminable batalla de la IA y el copyright</strong>&period; Este es el último episodio de un culebrón del que sin duda veremos muchos más capítulos&period; Empresas como <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/google-tiene-claro-como-va-a-entrenar-sus-modelos-ia-cogiendo-todo-que-publiquemos-internet" data-vars-post-title="Google tiene claro cómo va a entrenar sus modelos de IA&period; Cogiendo todo lo que publiquemos en internet" data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/google-tiene-claro-como-va-a-entrenar-sus-modelos-ia-cogiendo-todo-que-publiquemos-internet">Google</a>, <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/openai-ha-usado-millones-textos-para-entrenar-a-chatgpt-problema-que-muchos-ellos-tienen-copyright" data-vars-post-title="OpenAI ha usado millones de textos para entrenar a ChatGPT&period; El problema es que muchos de ellos tienen copyright" data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/openai-ha-usado-millones-textos-para-entrenar-a-chatgpt-problema-que-muchos-ellos-tienen-copyright">OpenAI</a> o <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/precio-a-pagar-tener-ia-saqueo-todo-contenido-internet-perplexity-solo-ultimo-ejemplo" data-vars-post-title="El precio a pagar por tener IA es el saqueo de todo el contenido de Internet&period; Y Perplexity es solo el último ejemplo " data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/precio-a-pagar-tener-ia-saqueo-todo-contenido-internet-perplexity-solo-ultimo-ejemplo">Perplexity</a> han sido igual de voraces a la hora de entrenar sus modelos y han arrasado con datos públicos (y no tan públicos) en internet&period; Las demandas por violación de copyright se van acumulando, y casos como el de Anthropic pueden sentar un inquietante predecente para todas ellas si no compraron los libros que usaron para entrenar sus modelos&period;</p>&NewLine;<p><&excl;-- BREAK 9 --></p>&NewLine;<p>Imagen | <a rel="noopener, noreferrer" href="https&colon;//unsplash&period;com/es/fotos/foto-de-estanteria-de-madera-marron-xrbbXIXAWY0">Emil Widlund</a></p>&NewLine;<p>En Xataka | <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/5-000-tokens-mi-blog-estan-siendo-usados-para-entrenar-ia-no-he-dado-mi-permiso" data-vars-post-title='5&period;000 "tokens" de mi blog están siendo usados para entrenar una IA&period; No he dado mi permiso ' data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/5-000-tokens-mi-blog-estan-siendo-usados-para-entrenar-ia-no-he-dado-mi-permiso">5&period;000 &&num;8220&semi;tokens&&num;8221&semi; de mi blog están siendo usados para entrenar una IA&period; No he dado mi permiso</a></p>&NewLine;<p> &&num;8211&semi; <br /> La noticia<br />&NewLine; <a href="https&colon;//www&period;xataka&period;com/legislacion-y-derechos/anthropic-entreno-su-ia-millones-libros-copyright-a-juez-eso-le-ha-parecido-correctisimo-gran-asterisco&quest;utm&lowbar;source=feedburner&amp&semi;utm&lowbar;medium=feed&amp&semi;utm&lowbar;campaign=25&lowbar;Jun&lowbar;2025"><br />&NewLine; <em> Anthropic entrenó su IA con millones de libros con copyright&period; A un juez eso le ha parecido correctísimo (con un gran asterisco) </em><br />&NewLine; </a><br />&NewLine; fue publicada originalmente en<br />&NewLine; <a href="https&colon;//www&period;xataka&period;com/&quest;utm&lowbar;source=feedburner&amp&semi;utm&lowbar;medium=feed&amp&semi;utm&lowbar;campaign=25&lowbar;Jun&lowbar;2025"><br />&NewLine; <strong> Xataka </strong><br />&NewLine; </a><br />&NewLine; por <a href="https&colon;//www&period;xataka&period;com/autor/javier-pastor&quest;utm&lowbar;source=feedburner&amp&semi;utm&lowbar;medium=feed&amp&semi;utm&lowbar;campaign=25&lowbar;Jun&lowbar;2025"><br />&NewLine; Javier Pastor<br />&NewLine; </a><br />&NewLine; &period; </p>&NewLine;<p>&ZeroWidthSpace;Anthropic acaba de lograr una victoria legal muy importante en esa batalla legal que el mundo de la IA mantiene con el copyright y los derechos de autor desde hace años&period; La sentencia, favorable a Anthropic, puede sentar un gran precedente para el resto de casos en los que las empresas de IA han sido demandadas por entrenar sus modelos con obras con copyright&period; Pero ojo, porque no ha sido una victoria total&period;</p>&NewLine;<p>Antropic gana&period; En la demanda de tres autores contra Anthropic se acusó a la empresa de descargar gratuitamente millones de libros con copyright, además de comprar algunos de ellos para escanearlos y digitalizarlos&period; El objetivo&colon; entrenar sus modelos de IA&period; El juez William Alsup ha dejado claro en su sentencia que &&num;8220&semi;el uso para el entrenamiento fue un uso justo&&num;8221&semi;&period; Las empresas que desarrollan modelos de IA siempre se han escudado en ese concepto del uso justo para argumentar cómo habían entrenado sus modelos con todo tipo de obras, incluidas aquellas protegidas por derechos de autor&period;</p>&NewLine;<p> En Xataka</p>&NewLine;<p> Google tiene claro cómo va a entrenar sus modelos de IA&period; Cogiendo todo lo que publiquemos en internet</p>&NewLine;<p>Uso justo&period; Este criterio legal mantiene que se permite un uso limitado de material protegido sin necesitar el permiso del dueño de esos derechos&period; En las leyes del copyright, una de las formas que tienen los jueces de determinar si ese tipo de actividad es un uso justo es la de examinar si ese uso fue &&num;8220&semi;transformador&&num;8221&semi;&period; O lo que es lo mismo, si a partir de esas obras se ha creado algo nuevo&period; Para Alsup &&num;8220&semi;la tecnología en cuestión es una de las más transformadoras que muchos de nosotros veremos en nuestras vidas&&num;8221&semi;&period;</p>&NewLine;<p>Una victoria con un gran asterisco&period; Aunque el juez indicó que ese proceso de entrenamiento era un uso justo, también determinó que los autores podrían llevar a juicio a Anthropic por piratear sus obras&period; La empresa argumentó que eso estaba justificado porque era &&num;8220&semi;al menos razonablemente necesario para entrenar LLMs&&num;8221&semi;&period; Para Alsup la cuestión es precisamente que aunque acabaron comprando algunos de ellos, construyó una biblioteca enorme por la que no pagó&colon;</p>&NewLine;<p>&&num;8220&semi;Anthropic descargó más de siete millones de copias piratas de libros, no pagó nada y conservó estas copias piratas en su biblioteca incluso después de decidir que no las utilizaría para entrenar a su IA (en absoluto o nunca más)&period; Los autores sostienen que Anthropic debería haber pagado por estas copias piratas de la biblioteca&period; Esta sentencia coincide en ello&&num;8221&semi;&period;</p>&NewLine;<p>El precedente de Thomson-Reuters&period; Hace unos meses Thomson Reuters ganó una demanda de 2020 contra una startup de IA llamada Ross Intelligence&period; Según ellos, la empresa había reproducido material de su división de investigación legal, llamada Westlaw&period; El juez rechazó los argumentos de la defensa y declaró que el argumento de uso justo no se podía aplicar en ese caso&period; La sentencia contra Anthropic va justo en la dirección opuesta y bendice ese tipo de uso&&num;8230&semi; mientras las empresas compren las obras con las que entrenan a sus modelos&period; La empresa de IA, por cierto, ya había logrado una pequeña victoria legal en un caso previo contra Universal Music&period;</p>&NewLine;<p>Anthropic descargó libros a destajo&period; En el juicio se desveló cómo el cofundador de Anthropic, Ben Mann, descargó en invierno de 2021 conjuntos de datos como el llamado Books3 o LibGen (Library Genesis) que no son más que gigantescas recopilaciones de libros, muchos de los cuales están protegidos por los derechos de autor&period;</p>&NewLine;<p>Meta está en las mismas&period; Todas las empresas que desarrollan modelos de IA los han entrenado con todo tipo de datos, incluidas obras protegidas por derechos de autor, y todas se enfrentan por tanto a una situación similar&period; Meta, por ejemplo, descargó 81,7 TB de libros con copyright vía BitTorrent para entrenar sus modelos de IA&period; Eso hace que la empresa de Mark Zuckerberg pueda acabar sufriendo un destino similar al de Anthropic, que tiene ante sí un nuevo proceso judicial muy peligroso para sus finanzas&period;</p>&NewLine;<p>Una multa potencial de miles de millones de dólares&period; Como indican en Wired, la multa mínima por este tipo de violación del copyright es de 750 dólares por libro&period; Alsup indicó que la biblioteca descargada ilegalmente de Anthropic consta de al menos siete millones de libros, y eso significa que la compañía se enfrenta a una multa potencialmente enorme&period; De momento no hay fecha para ese nuevo juicio&period;</p>&NewLine;<p> En Xataka</p>&NewLine;<p> Millones de personas vuelven a estar interesadas en ChatGPT&period; El problema es que lo ha conseguido vulnerando derechos de autor</p>&NewLine;<p>La interminable batalla de la IA y el copyright&period; Este es el último episodio de un culebrón del que sin duda veremos muchos más capítulos&period; Empresas como Google, OpenAI o Perplexity han sido igual de voraces a la hora de entrenar sus modelos y han arrasado con datos públicos (y no tan públicos) en internet&period; Las demandas por violación de copyright se van acumulando, y casos como el de Anthropic pueden sentar un inquietante predecente para todas ellas si no compraron los libros que usaron para entrenar sus modelos&period;</p>&NewLine;<p>Imagen | Emil Widlund</p>&NewLine;<p>En Xataka | 5&period;000 &&num;8220&semi;tokens&&num;8221&semi; de mi blog están siendo usados para entrenar una IA&period; No he dado mi permiso</p>&NewLine;<p> &&num;8211&semi; La noticia</p>&NewLine;<p> Anthropic entrenó su IA con millones de libros con copyright&period; A un juez eso le ha parecido correctísimo (con un gran asterisco) </p>&NewLine;<p> fue publicada originalmente en</p>&NewLine;<p> Xataka </p>&NewLine;<p> por<br />&NewLine; Javier Pastor</p>&NewLine;<p> &period; </p>&NewLine;<p>&ZeroWidthSpace; </p>&NewLine;<p>&ZeroWidthSpace; </p>&NewLine;

ERM Digital

Ciencia y Tecnología

Anthropic entrenó su IA con millones de libros con copyright. A un juez eso le ha parecido correctísimo (con un gran asterisco)

Leave a Reply

Leave a Reply

Noticias Importantes

Leave a Reply Cancel reply

Leave a Reply

Noticias Importantes

Leave a Reply