Ciencia y Tecnología

OpenAI cree haber descubierto porqué las IAs alucinan: no saben decir “no lo sé”

Published

3 months ago

September 8, 2025

<p>&NewLine; <img src="https&colon;//i&period;blogs&period;es/be81b9/chat1/1024&lowbar;2000&period;jpeg" alt="OpenAI cree haber descubierto porqué las IAs alucinan&colon; no saben decir &OpenCurlyDoubleQuote;no lo sé” ">&NewLine; </p>&NewLine;</p>&NewLine;<p>La IA alucina&period; <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/pregunta-no-ia-se-ha-estancado-pregunta-que-pasa-ha-hecho" data-vars-post-title="Los escépticos de la IA avisaron de que nos estábamos emocionando mucho y no les creímos&colon; la IA es tontísima" data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/pregunta-no-ia-se-ha-estancado-pregunta-que-pasa-ha-hecho">Da respuestas que no son ciertas</a>&period; Inventa, y además lo hace con una soltura sencillamente asombrosa&period; Las respuestas parecen coherentes gracias a esa aparente coherencia y seguridad, pero lo cierto es que eso puede acabar provocando problemas inquietantes&period; Por ejemplo, que te recomiende <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/ia-google-aconseja-usar-pegamento-queso-pizza-fuente-comentario-reddit-hace-11-anos" data-vars-post-title="La IA de Google aconseja usar pegamento para el queso de la pizza&period; La fuente es un comentario de Reddit de hace 11 años " data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/ia-google-aconseja-usar-pegamento-queso-pizza-fuente-comentario-reddit-hace-11-anos">poner pegamento en la pizza</a> para que el queso quede bien pegado&period;</p>&NewLine;<p><strong>Las alucinaciones no son un error místico</strong>&period; En OpenAI conocen bien el problema, y acaban de <a rel="noopener, noreferrer" href="https&colon;//cdn&period;openai&period;com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate&period;pdf">publicar un informe</a> en el cual analizan las causas de las alucinaciones&period; Según el estudio, estas surgen por &&num;8220&semi;presiones estadísticas&&num;8221&semi; en las etapas de entrenamiento y evaluación&period; </p>&NewLine;<p><&excl;-- BREAK 1 --></p>&NewLine;<div class="article-asset article-asset-normal article-asset-center">&NewLine;<div class="desvio-container">&NewLine;<div class="desvio">&NewLine;<div class="desvio-figure js-desvio-figure">&NewLine; <a href="https&colon;//www&period;xataka&period;com/robotica-e-ia/tenemos-problema-opacidad-ia-gpt-5-tiene-muchas-versiones-openai-decide-cual-usar-ti" class="pivot-outboundlink" data-vars-post-title="Buenas noticias, ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias, es GPT-5 quien lo elige sin avisarte"><br />&NewLine; <img alt="Buenas noticias, ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias, es GPT-5 quien lo elige sin avisarte" width="375" height="142" src="https&colon;//i&period;blogs&period;es/76ce94/chat2/375&lowbar;142&period;jpeg"><br />&NewLine; </a>&NewLine; </div>&NewLine;<div class="desvio-summary">&NewLine;<div class="desvio-taxonomy js-desvio-taxonomy">&NewLine; <a href="https&colon;//www&period;xataka&period;com/robotica-e-ia/tenemos-problema-opacidad-ia-gpt-5-tiene-muchas-versiones-openai-decide-cual-usar-ti" class="desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title="Buenas noticias, ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias, es GPT-5 quien lo elige sin avisarte">En Xataka</a>&NewLine; </div>&NewLine;<p> <a href="https&colon;//www&period;xataka&period;com/robotica-e-ia/tenemos-problema-opacidad-ia-gpt-5-tiene-muchas-versiones-openai-decide-cual-usar-ti" class="desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title="Buenas noticias, ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias, es GPT-5 quien lo elige sin avisarte">Buenas noticias, ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias, es GPT-5 quien lo elige sin avisarte</a>&NewLine; </div>&NewLine;</p></div>&NewLine;</p></div>&NewLine;</div>&NewLine;<p><strong>Premio por adivinar</strong>&period; El problema, explican, es que en esos procedimientos se está premiando que la IA &&num;8220&semi;adivine&&num;8221&semi; en lugar de admitir que puede haber incertidumbre en las respuestas, &&num;8220&semi;como cuando un estudiante se enfrenta a una pregunta difícil en un examen&&num;8221&semi; y responde a alguna de las opciones disponibles <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/le-pides-a-ia-que-elija-numero-1-50-suele-elegir-27-razon-muy-humana" data-vars-post-title="Si le pides a las IAs que elijan un número entre 1 y 50, suelen elegir el 27&period; La razón es muy humana" data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/le-pides-a-ia-que-elija-numero-1-50-suele-elegir-27-razon-muy-humana">para ver si tiene suerte y acierta</a>&period; En OpenAI señalan cómo la IA hace algo parecido en esos casos, y en el entrenamiento se la anima a contestar adivinando la respuesta en lugar de contestar con un sencillo &&num;8220&semi;no lo sé&&num;8221&semi;&period;</p>&NewLine;<p><strong>Malditas probabilidades</strong>&period; En la fase de pre-entrenamiento los modelos aprenden la distribución del lenguaje a partir de un gran corpus de texto&period; Y es ahí donde los autores destacan que aunque los datos de origen estén completamente libres de errores, <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/hay-nueva-forma-comprobar-tu-ia-lista-no-ponerla-a-jugar-a-pokemon" data-vars-post-title='El nuevo "test" para descubrir si un modelo de IA o no es verdaderamente inteligente&colon; ponerle a jugar a Pokémon' data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/hay-nueva-forma-comprobar-tu-ia-lista-no-ponerla-a-jugar-a-pokemon">las técnicas estadísticas que se utilizan</a> provocan que el modelo pueda cometer errores&period; La generación de un texto válido es mucho más compleja que responder a una simple pregunta con un sí o un no como &&num;8220&semi;¿es válida esta salida&quest;&&num;8221&semi;&period;</p>&NewLine;<p><strong>Predecir la palabra tiene trampa</strong>&period; Los modelos de lenguaje aprenden a &&num;8220&semi;hablar&&num;8221&semi; con el preentrenamiento, en el que aprenden a predecir la próxima palabra de una frase gracias a la ingesta de enormes cantidades de texto&period; Aquí no hay etiquetas &&num;8220&semi;verdadero/falso&&num;8221&semi; en cada frase con la que se entrena, solo &&num;8220&semi;ejemplos positivos&&num;8221&semi; (válidos) del lenguaje&period; Eso hace más difícil evitar las alucinaciones, pero en OpenAI creen tener una posible respuesta que de hecho ya han aplicado en <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/gpt-5-esta-aqui-asi-lanzamiento-inteligencia-artificial-esperado-openai-carrera-cada-vez-renida" data-vars-post-title='OpenAI lanza GPT-5&colon; un enorme modelo "unificado" con el que la empresa aspira a dar un gran salto respecto a los anteriores' data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/gpt-5-esta-aqui-asi-lanzamiento-inteligencia-artificial-esperado-openai-carrera-cada-vez-renida">GPT-5</a>&period;</p>&NewLine;<p><strong>Un nuevo entrenamiento</strong>&period; Para mitigar el problema en OpenAI proponen introducir una clasificación binaria que ellos llaman &&num;8220&semi;Is-It-Valid&&num;8221&semi; (IIV, &&num;8220&semi;¿Es válida&quest;&&num;8221&semi;), que entrena a un modelo para distinguir entre respuestas válidas y erróneas&period; </p>&NewLine;<p><&excl;-- BREAK 2 --></p>&NewLine;<div class="article-asset-image article-asset-normal article-asset-center">&NewLine;<div class="asset-content">&NewLine;<p> <img alt="Captura De Pantalla 2025 09 08 A Las 13 35 49" class="centro&lowbar;sinmarco" src="https&colon;//i&period;blogs&period;es/e9a49c/captura-de-pantalla-2025-09-08-a-las-13&period;35&period;49/450&lowbar;1000&period;jpeg"></p></div>&NewLine;</div>&NewLine;<p><strong>GPT-5 es algo más humilde</strong>&period; Cuando hay una respuesta correcta, los modelos de OpenAI clasifican las respuestas que da el modelo en tres grupos&colon; correctas, errores, y abstenciones, que reflejan cierta &&num;8220&semi;humildad&&num;8221&semi;&period; Según sus datos, GPT-5 ha mejorado en cuanto a la tasa de alucinaciones porque en sus pruebas se abstiene mucho más (52&percnt;) que o4-mini (1&percnt;), por ejemplo&period; Aunque o4-mini es ligeramente mejor en respuestas correctas, <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/alucinaciones-siguen-siendo-talon-aquiles-ia-ultimos-modelos-openai-inventan-cuenta" data-vars-post-title="Las alucinaciones siguen siendo el talón de Aquiles de la IA&colon; los últimos modelos de OpenAI inventan más de la cuenta" data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/alucinaciones-siguen-siendo-talon-aquiles-ia-ultimos-modelos-openai-inventan-cuenta">es mucho peor en tasa de errores</a>&period;</p>&NewLine;<p><strong>Los benchmarks premian los aciertos</strong>&period; En el estudio se indica además cómo <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/no-sabemos-que-miden-exactamente-benchmarks-ia-asi-que-hemos-hablado-espanol-que-ha-creado-uno-dificiles" data-vars-post-title="No sabemos qué miden los benchmarks de IA&period; Así que hemos hablado con el español que ha creado uno de los más difíciles" data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/no-sabemos-que-miden-exactamente-benchmarks-ia-asi-que-hemos-hablado-espanol-que-ha-creado-uno-dificiles">los benchmarks</a> y las tarjetas técnicas de los modelos (model cards) actuales se centran totalmente en la tasa de aciertos&period; De ese modo, aunque los modelos de IA efectivamente mejoran y aciertan cada vez más, siguen alucinando y no hay apenas datos sobre esas tasas de alucinaciones que deberían sustituirse por un simple &&num;8220&semi;no lo sé&&num;8221&semi;&period; </p>&NewLine;<p><&excl;-- BREAK 3 --></p>&NewLine;<div class="article-asset-video article-asset-normal">&NewLine;<div class="asset-content">&NewLine;<div class="base-asset-video">&NewLine;<div class="js-dailymotion"></div>&NewLine;</p></div>&NewLine;</p></div>&NewLine;</div>&NewLine;<p><strong>Solución fácil</strong>&period; Pero como ocurre en los exámenes tipo test, hay una forma de evitar que <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/mito-alumno-que-aprueba-examen-estudiando-tres-dias-antes-real-gracias-a-chatgpt" data-vars-post-title="Un sobresaliente estudiando el día de antes&colon; ChatGPT está acelerando la muerte de los exámenes" data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/mito-alumno-que-aprueba-examen-estudiando-tres-dias-antes-real-gracias-a-chatgpt">los alumnos jueguen a la quiniela</a>&colon; penalizar los errores más que la incertidumbre&period; En esos exámenes contestar bien puede valer un punto pero contestar mal puede restar 0,5 puntos y no contestar valdría cero puntos&period; Si no sabes la respuesta, adivinar te puede salir muy caro&period; Pues con los modelos de IA, igual&period; </p>&NewLine;<p>En Xataka | <a class="text-outboundlink" href="https&colon;//www&period;xataka&period;com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" data-vars-post-title="Tenemos un problema con la IA&colon; no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude " data-vars-post-url="https&colon;//www&period;xataka&period;com/robotica-e-ia/tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude">Tenemos un problema con la IA&colon; no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude</a></p>&NewLine;<p></p>&NewLine;<p><&excl;-- BREAK 4 --></p>&NewLine;<p> &&num;8211&semi; <br /> La noticia<br />&NewLine; <a href="https&colon;//www&period;xataka&period;com/robotica-e-ia/openai-cree-haber-descubierto-porque-ias-alucinan-no-saben-decir-no-se&quest;utm&lowbar;source=feedburner&amp&semi;utm&lowbar;medium=feed&amp&semi;utm&lowbar;campaign=08&lowbar;Sep&lowbar;2025"><br />&NewLine; <em> OpenAI cree haber descubierto porqué las IAs alucinan&colon; no saben decir &OpenCurlyDoubleQuote;no lo sé” </em><br />&NewLine; </a><br />&NewLine; fue publicada originalmente en<br />&NewLine; <a href="https&colon;//www&period;xataka&period;com/&quest;utm&lowbar;source=feedburner&amp&semi;utm&lowbar;medium=feed&amp&semi;utm&lowbar;campaign=08&lowbar;Sep&lowbar;2025"><br />&NewLine; <strong> Xataka </strong><br />&NewLine; </a><br />&NewLine; por <a href="https&colon;//www&period;xataka&period;com/autor/javier-pastor&quest;utm&lowbar;source=feedburner&amp&semi;utm&lowbar;medium=feed&amp&semi;utm&lowbar;campaign=08&lowbar;Sep&lowbar;2025"><br />&NewLine; Javier Pastor<br />&NewLine; </a><br />&NewLine; &period; </p>&NewLine;<p>&ZeroWidthSpace;La IA alucina&period; Da respuestas que no son ciertas&period; Inventa, y además lo hace con una soltura sencillamente asombrosa&period; Las respuestas parecen coherentes gracias a esa aparente coherencia y seguridad, pero lo cierto es que eso puede acabar provocando problemas inquietantes&period; Por ejemplo, que te recomiende poner pegamento en la pizza para que el queso quede bien pegado&period;Las alucinaciones no son un error místico&period; En OpenAI conocen bien el problema, y acaban de publicar un informe en el cual analizan las causas de las alucinaciones&period; Según el estudio, estas surgen por &&num;8220&semi;presiones estadísticas&&num;8221&semi; en las etapas de entrenamiento y evaluación&period; </p>&NewLine;<p> En Xataka</p>&NewLine;<p> Buenas noticias, ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias, es GPT-5 quien lo elige sin avisarte</p>&NewLine;<p>Premio por adivinar&period; El problema, explican, es que en esos procedimientos se está premiando que la IA &&num;8220&semi;adivine&&num;8221&semi; en lugar de admitir que puede haber incertidumbre en las respuestas, &&num;8220&semi;como cuando un estudiante se enfrenta a una pregunta difícil en un examen&&num;8221&semi; y responde a alguna de las opciones disponibles para ver si tiene suerte y acierta&period; En OpenAI señalan cómo la IA hace algo parecido en esos casos, y en el entrenamiento se la anima a contestar adivinando la respuesta en lugar de contestar con un sencillo &&num;8220&semi;no lo sé&&num;8221&semi;&period;Malditas probabilidades&period; En la fase de pre-entrenamiento los modelos aprenden la distribución del lenguaje a partir de un gran corpus de texto&period; Y es ahí donde los autores destacan que aunque los datos de origen estén completamente libres de errores, las técnicas estadísticas que se utilizan provocan que el modelo pueda cometer errores&period; La generación de un texto válido es mucho más compleja que responder a una simple pregunta con un sí o un no como &&num;8220&semi;¿es válida esta salida&quest;&&num;8221&semi;&period;Predecir la palabra tiene trampa&period; Los modelos de lenguaje aprenden a &&num;8220&semi;hablar&&num;8221&semi; con el preentrenamiento, en el que aprenden a predecir la próxima palabra de una frase gracias a la ingesta de enormes cantidades de texto&period; Aquí no hay etiquetas &&num;8220&semi;verdadero/falso&&num;8221&semi; en cada frase con la que se entrena, solo &&num;8220&semi;ejemplos positivos&&num;8221&semi; (válidos) del lenguaje&period; Eso hace más difícil evitar las alucinaciones, pero en OpenAI creen tener una posible respuesta que de hecho ya han aplicado en GPT-5&period;Un nuevo entrenamiento&period; Para mitigar el problema en OpenAI proponen introducir una clasificación binaria que ellos llaman &&num;8220&semi;Is-It-Valid&&num;8221&semi; (IIV, &&num;8220&semi;¿Es válida&quest;&&num;8221&semi;), que entrena a un modelo para distinguir entre respuestas válidas y erróneas&period; </p>&NewLine;<p>GPT-5 es algo más humilde&period; Cuando hay una respuesta correcta, los modelos de OpenAI clasifican las respuestas que da el modelo en tres grupos&colon; correctas, errores, y abstenciones, que reflejan cierta &&num;8220&semi;humildad&&num;8221&semi;&period; Según sus datos, GPT-5 ha mejorado en cuanto a la tasa de alucinaciones porque en sus pruebas se abstiene mucho más (52&percnt;) que o4-mini (1&percnt;), por ejemplo&period; Aunque o4-mini es ligeramente mejor en respuestas correctas, es mucho peor en tasa de errores&period;Los benchmarks premian los aciertos&period; En el estudio se indica además cómo los benchmarks y las tarjetas técnicas de los modelos (model cards) actuales se centran totalmente en la tasa de aciertos&period; De ese modo, aunque los modelos de IA efectivamente mejoran y aciertan cada vez más, siguen alucinando y no hay apenas datos sobre esas tasas de alucinaciones que deberían sustituirse por un simple &&num;8220&semi;no lo sé&&num;8221&semi;&period; </p>&NewLine;<p>Solución fácil&period; Pero como ocurre en los exámenes tipo test, hay una forma de evitar que los alumnos jueguen a la quiniela&colon; penalizar los errores más que la incertidumbre&period; En esos exámenes contestar bien puede valer un punto pero contestar mal puede restar 0,5 puntos y no contestar valdría cero puntos&period; Si no sabes la respuesta, adivinar te puede salir muy caro&period; Pues con los modelos de IA, igual&period; En Xataka | Tenemos un problema con la IA&colon; no hay forma fiable de saber si ChatGPT es mejor que Gemini, Copilot o Claude</p>&NewLine;<p> &&num;8211&semi; La noticia</p>&NewLine;<p> OpenAI cree haber descubierto porqué las IAs alucinan&colon; no saben decir &OpenCurlyDoubleQuote;no lo sé” </p>&NewLine;<p> fue publicada originalmente en</p>&NewLine;<p> Xataka </p>&NewLine;<p> por<br />&NewLine; Javier Pastor</p>&NewLine;<p> &period; </p>&NewLine;<p>&ZeroWidthSpace; </p>&NewLine;<p>&ZeroWidthSpace; </p>&NewLine;

ERM Digital

Ciencia y Tecnología

OpenAI cree haber descubierto porqué las IAs alucinan: no saben decir “no lo sé”

Leave a Reply

Leave a Reply

Noticias Importantes

Leave a Reply Cancel reply

Leave a Reply

Noticias Importantes

Leave a Reply