Ciencia y Tecnología
Muchas IA de vídeo están aprendiendo a imitar el mundo. Y todo apunta a un “saqueo” sin precedentes de YouTube
Una plaza, turistas, un camarero moviéndose entre mesas, una bici que pasa al fondo o un periodista en un plató. Las IA de vídeo ya pueden generar escenas en un pispás. El resultado sorprende, pero también abre una pregunta que hasta hace poco apenas se planteaba: ¿de dónde han salido todas esas imágenes que les han permitido aprender a imitar el mundo? Según The Atlantic, parte de la respuesta apunta a millones de vídeos extraídos de plataformas como YouTube sin un consentimiento claro.
La euforia por la IA generativa ha ido tan rápido que muchas preguntas se han quedado atrás. En apenas dos años hemos pasado de pequeños experimentos curiosos a modelos que producen vídeos casi indistinguibles de los reales. Y mientras el foco estaba en las demostraciones, otra cuestión iba ganando peso: la transparencia. OpenAI, por ejemplo, ha explicado que Sora se entrena con datos “disponibles públicamente”, pero no ha detallado cuáles.
Un entrenamiento masivo que señala a YouTube
La pieza de The Atlantic da una pista clara de lo que estaba ocurriendo entre bastidores. Hablamos de más de 15 millones de vídeos recopilados para entrenar modelos de IA, con una enorme cantidad procedente de YouTube sin autorización formal. Entre las iniciativas citadas aparecen conjuntos de datos asociados a varias compañías, diseñados para mejorar el rendimiento de los generadores de vídeo. Según el medio, este proceso se realizó sin avisar a los creadores que publicaron originalmente ese contenido.
Uno de los aspectos más llamativos del hallazgo es el perfil del material afectado. No se trataba solo de vídeos anónimos o grabaciones domésticas, sino de contenidos informativos y producciones profesionales. El medio encontró que miles de piezas procedían de canales pertenecientes a publicaciones como The New York Times, BBC, The Guardian, The Washington Post o Al Jazeera. En conjunto, hablamos de un volumen enorme de periodismo que habría terminado alimentando sistemas de IA sin un acuerdo previo con sus propietarios.
Runway, una de las empresas que más impulso ha dado al vídeo generativo, aparece señalada en los conjuntos de datos revisados. Según los documentos citados, sus modelos habrían aprendido con clips organizados por tipo de escena y contexto: entrevistas, explicativos, piezas con gráficos, planos cocina, planos recurso. La idea es clara: si la IA debe reproducir situaciones humanas y narrativas audiovisuales, necesita referencias reales que cubran desde gestos hasta ritmos de edición.

Fragmentos de un vídeo generado con la herramienta de Runway
Además de Runway, la investigación menciona conjuntos de datos empleados en laboratorios de grandes plataformas tecnológicas como Meta o ByteDance en investigación y desarrollo de sus modelos. La dinámica era similar: enormes volúmenes de vídeos recopilados en internet y compartidos entre equipos de investigación para mejorar las capacidades audiovisuales.
La postura oficial de YouTube no deja demasiado margen para interpretaciones. Su normativa prohíbe descargar vídeos para entrenar modelos, y su CEO, Neal Mohan, lo ha reiterado en público. Las expectativas de los creadores, subrayó, pasan por que sus contenidos se utilicen dentro de las reglas del servicio. La aparición de millones de vídeos en bases de datos para IA ha situado ese marco legal en primer plano y ha intensificado la presión sobre las plataformas involucradas en el desarrollo de modelos generativos.
La reacción del sector mediático ha seguido dos caminos. Por un lado, compañías como Vox Media o Prisa han cerrado acuerdos para licenciar su contenido a plataformas de inteligencia artificial, buscando un marco claro y compensación económica. Por otro, algunos medios han optado por plantar cara: The New York Times ha llevado a OpenAI y Microsoft a los tribunales por el uso no autorizado de sus materiales, subrayando que protegerá también el contenido que distribuye en vídeo.
El terreno legal sigue siendo difuso. La legislación actual no estaba pensada para modelos que procesan millones de vídeos en paralelo, y los tribunales todavía están empezando a marcar líneas. Para algunos expertos, publicar en abierto no equivale a ceder derechos de entrenamiento, mientras que las empresas de IA defienden que la indexación y el uso de material público forman parte del avance tecnológico. Esa tensión, aún sin resolver, mantiene a medios y desarrolladores en un juego de equilibrio constante.
Lo que tenemos delante es el arranque de una conversación que va mucho más allá de la tecnología. El entrenamiento de modelos de IA con material disponible en internet ha sido una práctica extendida durante años, y ahora llega el momento de decidir dónde están los límites. Las compañías prometen acuerdos y transparencia, los medios piden garantías y los creadores reclaman control. La próxima etapa será tan tecnológica como política: cómo se alimenta la inteligencia artificial definirá quién se beneficia de ella.
Imágenes | Xataka con Gemini 2.5
–
La noticia
Muchas IA de vídeo están aprendiendo a imitar el mundo. Y todo apunta a un “saqueo” sin precedentes de YouTube
fue publicada originalmente en
Xataka
por
Javier Marquez
.
Una plaza, turistas, un camarero moviéndose entre mesas, una bici que pasa al fondo o un periodista en un plató. Las IA de vídeo ya pueden generar escenas en un pispás. El resultado sorprende, pero también abre una pregunta que hasta hace poco apenas se planteaba: ¿de dónde han salido todas esas imágenes que les han permitido aprender a imitar el mundo? Según The Atlantic, parte de la respuesta apunta a millones de vídeos extraídos de plataformas como YouTube sin un consentimiento claro.
La euforia por la IA generativa ha ido tan rápido que muchas preguntas se han quedado atrás. En apenas dos años hemos pasado de pequeños experimentos curiosos a modelos que producen vídeos casi indistinguibles de los reales. Y mientras el foco estaba en las demostraciones, otra cuestión iba ganando peso: la transparencia. OpenAI, por ejemplo, ha explicado que Sora se entrena con datos “disponibles públicamente”, pero no ha detallado cuáles.
Un entrenamiento masivo que señala a YouTube
La pieza de The Atlantic da una pista clara de lo que estaba ocurriendo entre bastidores. Hablamos de más de 15 millones de vídeos recopilados para entrenar modelos de IA, con una enorme cantidad procedente de YouTube sin autorización formal. Entre las iniciativas citadas aparecen conjuntos de datos asociados a varias compañías, diseñados para mejorar el rendimiento de los generadores de vídeo. Según el medio, este proceso se realizó sin avisar a los creadores que publicaron originalmente ese contenido.
Uno de los aspectos más llamativos del hallazgo es el perfil del material afectado. No se trataba solo de vídeos anónimos o grabaciones domésticas, sino de contenidos informativos y producciones profesionales. El medio encontró que miles de piezas procedían de canales pertenecientes a publicaciones como The New York Times, BBC, The Guardian, The Washington Post o Al Jazeera. En conjunto, hablamos de un volumen enorme de periodismo que habría terminado alimentando sistemas de IA sin un acuerdo previo con sus propietarios.
Runway, una de las empresas que más impulso ha dado al vídeo generativo, aparece señalada en los conjuntos de datos revisados. Según los documentos citados, sus modelos habrían aprendido con clips organizados por tipo de escena y contexto: entrevistas, explicativos, piezas con gráficos, planos cocina, planos recurso. La idea es clara: si la IA debe reproducir situaciones humanas y narrativas audiovisuales, necesita referencias reales que cubran desde gestos hasta ritmos de edición.
Fragmentos de un vídeo generado con la herramienta de Runway
Además de Runway, la investigación menciona conjuntos de datos empleados en laboratorios de grandes plataformas tecnológicas como Meta o ByteDance en investigación y desarrollo de sus modelos. La dinámica era similar: enormes volúmenes de vídeos recopilados en internet y compartidos entre equipos de investigación para mejorar las capacidades audiovisuales.
La postura oficial de YouTube no deja demasiado margen para interpretaciones. Su normativa prohíbe descargar vídeos para entrenar modelos, y su CEO, Neal Mohan, lo ha reiterado en público. Las expectativas de los creadores, subrayó, pasan por que sus contenidos se utilicen dentro de las reglas del servicio. La aparición de millones de vídeos en bases de datos para IA ha situado ese marco legal en primer plano y ha intensificado la presión sobre las plataformas involucradas en el desarrollo de modelos generativos.
La reacción del sector mediático ha seguido dos caminos. Por un lado, compañías como Vox Media o Prisa han cerrado acuerdos para licenciar su contenido a plataformas de inteligencia artificial, buscando un marco claro y compensación económica. Por otro, algunos medios han optado por plantar cara: The New York Times ha llevado a OpenAI y Microsoft a los tribunales por el uso no autorizado de sus materiales, subrayando que protegerá también el contenido que distribuye en vídeo.
El terreno legal sigue siendo difuso. La legislación actual no estaba pensada para modelos que procesan millones de vídeos en paralelo, y los tribunales todavía están empezando a marcar líneas. Para algunos expertos, publicar en abierto no equivale a ceder derechos de entrenamiento, mientras que las empresas de IA defienden que la indexación y el uso de material público forman parte del avance tecnológico. Esa tensión, aún sin resolver, mantiene a medios y desarrolladores en un juego de equilibrio constante.
En Xataka
Si creías que la burbuja de la IA era preocupante es porque no habíamos entrado en su siguiente fase: deuda
Lo que tenemos delante es el arranque de una conversación que va mucho más allá de la tecnología. El entrenamiento de modelos de IA con material disponible en internet ha sido una práctica extendida durante años, y ahora llega el momento de decidir dónde están los límites. Las compañías prometen acuerdos y transparencia, los medios piden garantías y los creadores reclaman control. La próxima etapa será tan tecnológica como política: cómo se alimenta la inteligencia artificial definirá quién se beneficia de ella.
Imágenes | Xataka con Gemini 2.5
En Xataka | Todas las grandes IA han ignorado las leyes del copyright. Lo alucinante es que sigue sin haber consecuencias
– La noticia
Muchas IA de vídeo están aprendiendo a imitar el mundo. Y todo apunta a un “saqueo” sin precedentes de YouTube
fue publicada originalmente en
Xataka
por
Javier Marquez
.

