Connect with us

Ciencia y Tecnología

La IA no para de robar contenidos de internet para mejorar. Y a internet se le han hinchado las narices

Published

on

La IA no para de robar contenidos de internet para mejorar. Y a internet se le han hinchado las narices

Que Reddit bloquee el accceso al Internet Archive es una tragedia. Y también una forma de frenar a una IA voraz e implacable

El precio a pagar por tener IA es el saqueo de todo el contenido de internet. En Reddit lo saben bien, y acaban de tomar una medida extrema contra esos robos indiscriminados: no es que bloqueen ya el acceso a sus contenidos a los ‘scrapers’ de las empresas de IA de forma directa. Ahora también los bloquean si esas empresas intentan acceder con rodeos. ¿El perjudicado? Internet Archive.

Qué ha pasado. Reddit, que siempre se ha mostrado muy proactivo a la hora de proteger “sus” contenidos (que por cierto, han sido generados por los usuarios voluntaria y gratuitamente), se ha dado cuenta de algo: se los estaban robando. Pero no directamente, sino a través de versiones anteriores guardadas en esa gigantesca hemeroteca digital llamada Internet Archive

Wayback Machine sin acceso. Wayback Machine es la “máquina en el tiempo” de Internet Archive, y permite acceder a versiones antiguas de cualquier sitio web. Pero para evitar más robos de contenidos, Reddit ha prohibido a esta plataforma que indexe la inmensa mayoría de contenidos de Reddit. Solo podrá indexarse la página de inicio de Reddit.com.

El argumento de Reddit. Tim Rathschmidt, portavoz de Reddit, explicaba en The Verge que aunque Internet Archive es un servicio dirigido a la web abierta, habían descubierto “casos en los que empresas de inteligencia artificial infringen las políticas de la plataforma, incluida la nuestra, y extraen datos de Wayback Machine”. Además, señalaba lo siguiente:

“Hasta que sean capaces de defender su sitio y cumplir con las políticas de la plataforma (por ejemplo, respetar la privacidad de los usuarios, en relación con la eliminación de contenido eliminado), estamos limitando parte de su acceso a los datos de Reddit para proteger a los usuarios de Reddit”.

Si quieres nuestros contenidos, paga. Ese mensaje del portavoz es razonable, pero como poco es incompleto. Sobre todo porque hace meses que Reddit ha perseguido ese tipo de saqueo de las empresas de IA. Ha tratado de bloquear con medios técnicos a aquellas que lo hacían, y el objetivo tanto antes como ahora era el mismo: que las empresas paguen por sus contenidos.

Es algo que ha conseguido con los acuerdos a los que ha llegado desde que empezó este tipo de procesos. Lo primero que hizo fue cerrar su API, un desastre para todo internet. Luego acabó llegando a un acuerdo para Google, que le paga 60 millones de dólares al año para poder tener acceso a esos contenidos. Y lo mismo acabó haciendo con OpenAI, con la que selló un pacto cuyos detalles económicos no han sido desvelados pero que da acceso a los contenidos de Reddit a los modelos que potencian ChatGPT.

Mi contenido es mío (más o menos). Las plataformas sociales llevan años nutriéndose del contenido de los usuarios. Hasta ahora el modelo de negocio se centraba en la publicidad, pero la llegada de la IA ha permitido contar con un interesante modelo alternativo: el de que las empresas de IA paguen por poder acceder a esos contenidos.

Los usuarios apenas ganan, Reddit y las redes sociales sí. Contenidos que afirman que son suyos —como Reddit, que en junio demandó a Anthropic— pero que en realidad crearon los usuarios de esas plataformas, que sin darse cuenta se han convertido en esclavos de dichas redes sociales: no paran de producir contenidos que otros consumen, y lo hacen sin cobrar un euro.

Dichas plataformas son intermediarias que proporcionan la infraestructura necesaria para que ese contenido esté disponible de forma gratuita, pero no hay apenas contraprestaciones para los creadores. Solo unos pocos pueden ganarse la vida en YouTube, TikTok o Instagram por ejemplo. En Reddit existen algunas retribuciones en metálico para los “contribuyentes” que más crean para la plataforma.

Cloudflare y los cerrojos de contenido. Las empresas de contenidos están comenzando a actuar de forma similar, y en los últimos dos años hemos visto cómo algunos grupos editoriales —incluido Prisa— llegan a acuerdos con empresas de IA para que puedan usar sus contenidos.

You shall not pass! Sin embargo, hay empresas que van más allá. Tenemos como ejemplo claro a Cloudflare, que ha creado un sistema para que empresas que usen sus servicios puedan bloquear los “crawlers de IA” que tratan de robar sus contenidos. Si eres cliente de Cloudflare, puedes activar ese bloqueo, evitando así el problema o al menos poniéndoselo mucho más difícil a las empresas de IA que tratan de entrenar sus modelos con tus datos. Medios y plataformas como The Associated Press, Fortune, Time o Stack Overflow son algunas de las empresas que ya están utilizando dicho sistema.

Quid pro quo. Este juego del gato y el ratón es especialmente llamativo para todo el segmento de la creación de contenidos, porque las empresas de IA utilizan todos los atajos que pueden para captar (y robar) esos datos, tengan o no copyright. Lo que plantea Reddit es un modelo en el que a los creadores les compense que la IA coja esos datos. O más que a los creadores, a las plataformas que sirven como su punto de encuentro y escaparate. Los grupos de medios y los productores de contenidos audiovisuales tienen aquí una oportunidad interesante ante el potencial colapso del tráfico provocado por soluciones como AI Overviews de Google.

En Xataka | La “descomposición digital”: cómo el 38% de los sitios web que existían en 2013 han desaparecido de internet


La noticia

La IA no para de robar contenidos de internet para mejorar. Y a internet se le han hinchado las narices


fue publicada originalmente en

Xataka

por
Javier Pastor

.

​Que Reddit bloquee el accceso al Internet Archive es una tragedia. Y también una forma de frenar a una IA voraz e implacable

El precio a pagar por tener IA es el saqueo de todo el contenido de internet. En Reddit lo saben bien, y acaban de tomar una medida extrema contra esos robos indiscriminados: no es que bloqueen ya el acceso a sus contenidos a los ‘scrapers’ de las empresas de IA de forma directa. Ahora también los bloquean si esas empresas intentan acceder con rodeos. ¿El perjudicado? Internet Archive.

Qué ha pasado. Reddit, que siempre se ha mostrado muy proactivo a la hora de proteger “sus” contenidos (que por cierto, han sido generados por los usuarios voluntaria y gratuitamente), se ha dado cuenta de algo: se los estaban robando. Pero no directamente, sino a través de versiones anteriores guardadas en esa gigantesca hemeroteca digital llamada Internet Archive. 

En Xataka

Las redes sociales nos dejaron trabajar gratis para ellas. Ahora nos quieren cobrar por hacerlo

Wayback Machine sin acceso. Wayback Machine es la “máquina en el tiempo” de Internet Archive, y permite acceder a versiones antiguas de cualquier sitio web. Pero para evitar más robos de contenidos, Reddit ha prohibido a esta plataforma que indexe la inmensa mayoría de contenidos de Reddit. Solo podrá indexarse la página de inicio de Reddit.com.

El argumento de Reddit. Tim Rathschmidt, portavoz de Reddit, explicaba en The Verge que aunque Internet Archive es un servicio dirigido a la web abierta, habían descubierto “casos en los que empresas de inteligencia artificial infringen las políticas de la plataforma, incluida la nuestra, y extraen datos de Wayback Machine”. Además, señalaba lo siguiente:

“Hasta que sean capaces de defender su sitio y cumplir con las políticas de la plataforma (por ejemplo, respetar la privacidad de los usuarios, en relación con la eliminación de contenido eliminado), estamos limitando parte de su acceso a los datos de Reddit para proteger a los usuarios de Reddit”.

Si quieres nuestros contenidos, paga. Ese mensaje del portavoz es razonable, pero como poco es incompleto. Sobre todo porque hace meses que Reddit ha perseguido ese tipo de saqueo de las empresas de IA. Ha tratado de bloquear con medios técnicos a aquellas que lo hacían, y el objetivo tanto antes como ahora era el mismo: que las empresas paguen por sus contenidos.

Es algo que ha conseguido con los acuerdos a los que ha llegado desde que empezó este tipo de procesos. Lo primero que hizo fue cerrar su API, un desastre para todo internet. Luego acabó llegando a un acuerdo para Google, que le paga 60 millones de dólares al año para poder tener acceso a esos contenidos. Y lo mismo acabó haciendo con OpenAI, con la que selló un pacto cuyos detalles económicos no han sido desvelados pero que da acceso a los contenidos de Reddit a los modelos que potencian ChatGPT.

Mi contenido es mío (más o menos). Las plataformas sociales llevan años nutriéndose del contenido de los usuarios. Hasta ahora el modelo de negocio se centraba en la publicidad, pero la llegada de la IA ha permitido contar con un interesante modelo alternativo: el de que las empresas de IA paguen por poder acceder a esos contenidos.

Los usuarios apenas ganan, Reddit y las redes sociales sí. Contenidos que afirman que son suyos —como Reddit, que en junio demandó a Anthropic— pero que en realidad crearon los usuarios de esas plataformas, que sin darse cuenta se han convertido en esclavos de dichas redes sociales: no paran de producir contenidos que otros consumen, y lo hacen sin cobrar un euro.

Dichas plataformas son intermediarias que proporcionan la infraestructura necesaria para que ese contenido esté disponible de forma gratuita, pero no hay apenas contraprestaciones para los creadores. Solo unos pocos pueden ganarse la vida en YouTube, TikTok o Instagram por ejemplo. En Reddit existen algunas retribuciones en metálico para los “contribuyentes” que más crean para la plataforma.

Cloudflare y los cerrojos de contenido. Las empresas de contenidos están comenzando a actuar de forma similar, y en los últimos dos años hemos visto cómo algunos grupos editoriales —incluido Prisa— llegan a acuerdos con empresas de IA para que puedan usar sus contenidos.

En Xataka

5.000 “tokens” de mi blog están siendo usados para entrenar una IA. No he dado mi permiso

You shall not pass! Sin embargo, hay empresas que van más allá. Tenemos como ejemplo claro a Cloudflare, que ha creado un sistema para que empresas que usen sus servicios puedan bloquear los “crawlers de IA” que tratan de robar sus contenidos. Si eres cliente de Cloudflare, puedes activar ese bloqueo, evitando así el problema o al menos poniéndoselo mucho más difícil a las empresas de IA que tratan de entrenar sus modelos con tus datos. Medios y plataformas como The Associated Press, Fortune, Time o Stack Overflow son algunas de las empresas que ya están utilizando dicho sistema.

Quid pro quo. Este juego del gato y el ratón es especialmente llamativo para todo el segmento de la creación de contenidos, porque las empresas de IA utilizan todos los atajos que pueden para captar (y robar) esos datos, tengan o no copyright. Lo que plantea Reddit es un modelo en el que a los creadores les compense que la IA coja esos datos. O más que a los creadores, a las plataformas que sirven como su punto de encuentro y escaparate. Los grupos de medios y los productores de contenidos audiovisuales tienen aquí una oportunidad interesante ante el potencial colapso del tráfico provocado por soluciones como AI Overviews de Google.

En Xataka | La “descomposición digital”: cómo el 38% de los sitios web que existían en 2013 han desaparecido de internet

– La noticia

La IA no para de robar contenidos de internet para mejorar. Y a internet se le han hinchado las narices

fue publicada originalmente en

Xataka

por
Javier Pastor

.   

​   

​ 

Continue Reading
Click to comment

Leave a Reply

Your email address will not be published. Required fields are marked *