Ciencia y Tecnología
Alguien le ha pasado 'Cien años de soledad' a un detector de textos hechos con IA. Ha dicho que es una IA
Las herramientas para detectar texto generado por IA fallan de forma sistemática al analizar grandes obras literarias. El Génesis bíblico, la Constitución de EE.UU., 'Harry Potter' o 'Cien años de soledad' son señalados por estos detectores como creaciones de máquinas. El motivo tiene una lógica perversa: lo que los algoritmos interpretan como escritura de IA es, en realidad, buena escritura.
Biblia robot. Las herramientas para detectar texto generado por IA llevan meses acumulando veredictos absurdos. Solo hay que someter 'Cien años de soledad' de Gabriel García Márquez a uno de estos sistemas y obtendrá que un 100% de la novela tiene origen artificial. El Génesis bíblico o la Constitución norteamericana no salen mejor parados: la herramienta ZeroGPT califica al primer texto con un 88,2% de probabilidad de ser escritura de IA y el segundo, como escrito por IA en un 96,21%. Experimentos con 'Harry Potter' o a la letra de 'Bohemian Rhapsody' arrojan resultados similares. El patrón es tan consistente que va más allá de la anécdota: estas herramientas tienen un problema de base.
Bien mal. La ironía es que los detectores de texto generado por IA fueron diseñados para identificar escritura hecha por máquinas. Sin embargo, acaban señalando exactamente lo opuesto: los textos que exhiben mayor cuidado estilístico, mayor coherencia interna y mayor dominio del ritmo narrativo son considerados como poco susceptibles de haber sido hechos por humanos. Es decir, escribir bien, en términos técnicos, se parece a escribir como un modelo de lenguaje.
Cómo funciona. Para entender por qué ocurre esto hay que entender también cómo funcionan estas herramientas. La mayoría se basan en dos indicadores principales. El primero es la perplejidad (perplexity): lo predecible que resulta la elección de palabras en un texto. Si cada palabra sigue a la anterior de forma esperable, la perplejidad es baja. Si el texto salta de forma impredecible entre registros, vocabulario y estructuras sintácticas, la perplejidad es alta. El segundo indicador es el estallido (burstiness): la variación en la longitud de las frases. Los humanos alternan párrafos largos con oraciones cortísimas, mientras que los modelos de lenguaje tienden a producir frases de longitud más uniforme.
Un texto bien construido (vocabulario preciso, estructura clara, ritmo uniforme) tiene baja perplejidad por diseño. Como García Márquez, que escoge las palabras exactas en sus textos, con precisión casi de cirujano. El Génesis tiene una cadencia narrativa casi hipnótica, deliberada, sin ruido, como una canción de métrica equilibrada. "Escribir bien" es un concepto muy complejo, pero puede significar, entre otras cosas, ser predecible en el sentido más virtuoso: que el lector comprenda el texto sin esfuerzo. Y eso, para un detector entrenado en distinguir "lo que haría un modelo de lenguaje", hace saltar las alarmas.
Es lo mismo. Lo que complica el problema es que los modelos de IA generativa se han entrenado, precisamente, con escritura humana de calidad. ChatGPT, Claude o Gemini producen textos fluidos, coherentes y con baja perplejidad porque aprendieron de millones de textos humanos que también tenían esas características. Detectar escritura hecha por una IA y diferenciarla de la buena escritura humana es una tarea casi imposible para estos algoritmos.
Otra forma de fallar. Estos criterios pueden tomar múltiples formas. Por ejemplo: un estudio sobre el rendimiento de siete detectores populares al analizar redacciones del TOEFL (examen oficial de inglés para no angloparlantes) frente a redacciones de estudiantes estadounidenses de secundaria. Los resultados: el 61,22% de los ensayos escritos por estudiantes no nativos fueron marcados como generados por IA. En un 20% de los casos, los siete detectores coincidían en el diagnóstico erróneo. Los textos de estudiantes nativos pasaron sin problemas.
La explicación es la misma mecánica de perplejidad: alguien que escribe en su segunda lengua usa un vocabulario más acotado, estructuras más sencillas y menos variaciones gramaticales. No escribe mal, pero sus herramientas son más limitadas, y los detectores de IA penalizan sistemáticamente a escritores con menor dominio del idioma. El equipo que hizo el estudio recomendó evitar usar estas herramientas en contextos evaluativos, especialmente cuando hay estudiantes internacionales involucrados. En España, tuvo lugar un episodio de este tipo: en 2024, la Universidad Católica Australiana abrió expedientes a cerca de 6.000 estudiantes usando Turnitin, la plataforma de detección más extendida en universidades. Muchos de ellos no habían utilizado IA en ningún momento.
Forzar la máquina. Edward Tian, CEO de GPTZero (uno de los detectores de referencia, con más de ocho millones de usuarios) reconoció abiertamente que muchas herramientas del sector ajustan sus umbrales para generar más falsos positivos de forma intencionada, con el objetivo de no dejar pasar textos generado por IA aunque eso implique señalar erróneamente un texto humano. Tian ha habla de de cómo GPTZero lucha por evitar esa proliferación de falsos positivos, pero la adulteración de los resultados está ahí como un problema patente.
El último caso. La editorial Hachette acaba de cancelar la publicación en Reino Unido y Estados Unidos de 'Shy Girl', una novela que la herramienta Pangram ha detectado como 78% generada por IA. La autora niega haber utilizado la herramienta. Sea cual sea la verdad en ese caso concreto, el episodio ilustra el poder fáctico que están adquiriendo estas herramientas: pueden destruir contratos editoriales y poner a humanos bajo sospecha antes de que exista ninguna prueba definitiva sobre el tema.
–
La noticia
Alguien le ha pasado 'Cien años de soledad' a un detector de textos hechos con IA. Ha dicho que es una IA
fue publicada originalmente en
Xataka
por
John Tones
.
Las herramientas para detectar texto generado por IA fallan de forma sistemática al analizar grandes obras literarias. El Génesis bíblico, la Constitución de EE.UU., 'Harry Potter' o 'Cien años de soledad' son señalados por estos detectores como creaciones de máquinas. El motivo tiene una lógica perversa: lo que los algoritmos interpretan como escritura de IA es, en realidad, buena escritura.
Biblia robot. Las herramientas para detectar texto generado por IA llevan meses acumulando veredictos absurdos. Solo hay que someter 'Cien años de soledad' de Gabriel García Márquez a uno de estos sistemas y obtendrá que un 100% de la novela tiene origen artificial. El Génesis bíblico o la Constitución norteamericana no salen mejor parados: la herramienta ZeroGPT califica al primer texto con un 88,2% de probabilidad de ser escritura de IA y el segundo, como escrito por IA en un 96,21%. Experimentos con 'Harry Potter' o a la letra de 'Bohemian Rhapsody' arrojan resultados similares. El patrón es tan consistente que va más allá de la anécdota: estas herramientas tienen un problema de base.
Bien mal. La ironía es que los detectores de texto generado por IA fueron diseñados para identificar escritura hecha por máquinas. Sin embargo, acaban señalando exactamente lo opuesto: los textos que exhiben mayor cuidado estilístico, mayor coherencia interna y mayor dominio del ritmo narrativo son considerados como poco susceptibles de haber sido hechos por humanos. Es decir, escribir bien, en términos técnicos, se parece a escribir como un modelo de lenguaje.
En Xataka
Guía de inteligencia artificial: principales características de los principales modelos de IA, puntos a favor y en contra, y comparativa
Cómo funciona. Para entender por qué ocurre esto hay que entender también cómo funcionan estas herramientas. La mayoría se basan en dos indicadores principales. El primero es la perplejidad (perplexity): lo predecible que resulta la elección de palabras en un texto. Si cada palabra sigue a la anterior de forma esperable, la perplejidad es baja. Si el texto salta de forma impredecible entre registros, vocabulario y estructuras sintácticas, la perplejidad es alta. El segundo indicador es el estallido (burstiness): la variación en la longitud de las frases. Los humanos alternan párrafos largos con oraciones cortísimas, mientras que los modelos de lenguaje tienden a producir frases de longitud más uniforme.
Un texto bien construido (vocabulario preciso, estructura clara, ritmo uniforme) tiene baja perplejidad por diseño. Como García Márquez, que escoge las palabras exactas en sus textos, con precisión casi de cirujano. El Génesis tiene una cadencia narrativa casi hipnótica, deliberada, sin ruido, como una canción de métrica equilibrada. "Escribir bien" es un concepto muy complejo, pero puede significar, entre otras cosas, ser predecible en el sentido más virtuoso: que el lector comprenda el texto sin esfuerzo. Y eso, para un detector entrenado en distinguir "lo que haría un modelo de lenguaje", hace saltar las alarmas.
Es lo mismo. Lo que complica el problema es que los modelos de IA generativa se han entrenado, precisamente, con escritura humana de calidad. ChatGPT, Claude o Gemini producen textos fluidos, coherentes y con baja perplejidad porque aprendieron de millones de textos humanos que también tenían esas características. Detectar escritura hecha por una IA y diferenciarla de la buena escritura humana es una tarea casi imposible para estos algoritmos.
Otra forma de fallar. Estos criterios pueden tomar múltiples formas. Por ejemplo: un estudio sobre el rendimiento de siete detectores populares al analizar redacciones del TOEFL (examen oficial de inglés para no angloparlantes) frente a redacciones de estudiantes estadounidenses de secundaria. Los resultados: el 61,22% de los ensayos escritos por estudiantes no nativos fueron marcados como generados por IA. En un 20% de los casos, los siete detectores coincidían en el diagnóstico erróneo. Los textos de estudiantes nativos pasaron sin problemas.
La explicación es la misma mecánica de perplejidad: alguien que escribe en su segunda lengua usa un vocabulario más acotado, estructuras más sencillas y menos variaciones gramaticales. No escribe mal, pero sus herramientas son más limitadas, y los detectores de IA penalizan sistemáticamente a escritores con menor dominio del idioma. El equipo que hizo el estudio recomendó evitar usar estas herramientas en contextos evaluativos, especialmente cuando hay estudiantes internacionales involucrados. En España, tuvo lugar un episodio de este tipo: en 2024, la Universidad Católica Australiana abrió expedientes a cerca de 6.000 estudiantes usando Turnitin, la plataforma de detección más extendida en universidades. Muchos de ellos no habían utilizado IA en ningún momento.
Forzar la máquina. Edward Tian, CEO de GPTZero (uno de los detectores de referencia, con más de ocho millones de usuarios) reconoció abiertamente que muchas herramientas del sector ajustan sus umbrales para generar más falsos positivos de forma intencionada, con el objetivo de no dejar pasar textos generado por IA aunque eso implique señalar erróneamente un texto humano. Tian ha habla de de cómo GPTZero lucha por evitar esa proliferación de falsos positivos, pero la adulteración de los resultados está ahí como un problema patente.
En Xataka
Hay detectores de ChatGPT para saber si un texto lo ha escrito una IA o un humano. Los he probado
El último caso. La editorial Hachette acaba de cancelar la publicación en Reino Unido y Estados Unidos de 'Shy Girl', una novela que la herramienta Pangram ha detectado como 78% generada por IA. La autora niega haber utilizado la herramienta. Sea cual sea la verdad en ese caso concreto, el episodio ilustra el poder fáctico que están adquiriendo estas herramientas: pueden destruir contratos editoriales y poner a humanos bajo sospecha antes de que exista ninguna prueba definitiva sobre el tema.
En Xataka | OpenAI tiene un detector de textos escritos por IA que funciona casi a la perfección. Y no quiere sacarlo al mercado
– La noticia
Alguien le ha pasado 'Cien años de soledad' a un detector de textos hechos con IA. Ha dicho que es una IA
fue publicada originalmente en
Xataka
por
John Tones
.


