Ciencia y Tecnología

OpenAI cree haber descubierto porqué las IAs alucinan: no saben decir “no lo sé”

Published

on

<p>&NewLine; <img src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;be81b9&sol;chat1&sol;1024&lowbar;2000&period;jpeg" alt&equals;"OpenAI cree haber descubierto porqué las IAs alucinan&colon; no saben decir &OpenCurlyDoubleQuote;no lo sé” ">&NewLine; <&sol;p>&NewLine;<&sol;p>&NewLine;<p>La IA alucina&period; <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;pregunta-no-ia-se-ha-estancado-pregunta-que-pasa-ha-hecho" data-vars-post-title&equals;"Los escépticos de la IA avisaron de que nos estábamos emocionando mucho y no les creímos&colon; la IA es tontísima" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;pregunta-no-ia-se-ha-estancado-pregunta-que-pasa-ha-hecho">Da respuestas que no son ciertas<&sol;a>&period; Inventa&comma; y además lo hace con una soltura sencillamente asombrosa&period; Las respuestas parecen coherentes gracias a esa aparente coherencia y seguridad&comma; pero lo cierto es que eso puede acabar provocando problemas inquietantes&period; Por ejemplo&comma; que te recomiende <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;ia-google-aconseja-usar-pegamento-queso-pizza-fuente-comentario-reddit-hace-11-anos" data-vars-post-title&equals;"La IA de Google aconseja usar pegamento para el queso de la pizza&period; La fuente es un comentario de Reddit de hace 11 años " data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;ia-google-aconseja-usar-pegamento-queso-pizza-fuente-comentario-reddit-hace-11-anos">poner pegamento en la pizza<&sol;a> para que el queso quede bien pegado&period;<&sol;p>&NewLine;<p><strong>Las alucinaciones no son un error místico<&sol;strong>&period; En OpenAI conocen bien el problema&comma; y acaban de <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;cdn&period;openai&period;com&sol;pdf&sol;d04913be-3f6f-4d2b-b283-ff432ef4aaa5&sol;why-language-models-hallucinate&period;pdf">publicar un informe<&sol;a> en el cual analizan las causas de las alucinaciones&period; Según el estudio&comma; estas surgen por &&num;8220&semi;presiones estadísticas&&num;8221&semi; en las etapas de entrenamiento y evaluación&period; <&sol;p>&NewLine;<p><&excl;-- BREAK 1 --><&sol;p>&NewLine;<div class&equals;"article-asset article-asset-normal article-asset-center">&NewLine;<div class&equals;"desvio-container">&NewLine;<div class&equals;"desvio">&NewLine;<div class&equals;"desvio-figure js-desvio-figure">&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;tenemos-problema-opacidad-ia-gpt-5-tiene-muchas-versiones-openai-decide-cual-usar-ti" class&equals;"pivot-outboundlink" data-vars-post-title&equals;"Buenas noticias&comma; ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias&comma; es GPT-5 quien lo elige sin avisarte"><br &sol;>&NewLine; <img alt&equals;"Buenas noticias&comma; ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias&comma; es GPT-5 quien lo elige sin avisarte" width&equals;"375" height&equals;"142" src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;76ce94&sol;chat2&sol;375&lowbar;142&period;jpeg"><br &sol;>&NewLine; <&sol;a>&NewLine; <&sol;div>&NewLine;<div class&equals;"desvio-summary">&NewLine;<div class&equals;"desvio-taxonomy js-desvio-taxonomy">&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;tenemos-problema-opacidad-ia-gpt-5-tiene-muchas-versiones-openai-decide-cual-usar-ti" class&equals;"desvio-taxonomy-anchor pivot-outboundlink" data-vars-post-title&equals;"Buenas noticias&comma; ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias&comma; es GPT-5 quien lo elige sin avisarte">En Xataka<&sol;a>&NewLine; <&sol;div>&NewLine;<p> <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;tenemos-problema-opacidad-ia-gpt-5-tiene-muchas-versiones-openai-decide-cual-usar-ti" class&equals;"desvio-title js-desvio-title pivot-outboundlink" data-vars-post-title&equals;"Buenas noticias&comma; ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias&comma; es GPT-5 quien lo elige sin avisarte">Buenas noticias&comma; ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias&comma; es GPT-5 quien lo elige sin avisarte<&sol;a>&NewLine; <&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>Premio por adivinar<&sol;strong>&period; El problema&comma; explican&comma; es que en esos procedimientos se está premiando que la IA &&num;8220&semi;adivine&&num;8221&semi; en lugar de admitir que puede haber incertidumbre en las respuestas&comma; &&num;8220&semi;como cuando un estudiante se enfrenta a una pregunta difícil en un examen&&num;8221&semi; y responde a alguna de las opciones disponibles <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;le-pides-a-ia-que-elija-numero-1-50-suele-elegir-27-razon-muy-humana" data-vars-post-title&equals;"Si le pides a las IAs que elijan un número entre 1 y 50&comma; suelen elegir el 27&period; La razón es muy humana" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;le-pides-a-ia-que-elija-numero-1-50-suele-elegir-27-razon-muy-humana">para ver si tiene suerte y acierta<&sol;a>&period; En OpenAI señalan cómo la IA hace algo parecido en esos casos&comma; y en el entrenamiento se la anima a contestar adivinando la respuesta en lugar de contestar con un sencillo &&num;8220&semi;no lo sé&&num;8221&semi;&period;<&sol;p>&NewLine;<p><strong>Malditas probabilidades<&sol;strong>&period; En la fase de pre-entrenamiento los modelos aprenden la distribución del lenguaje a partir de un gran corpus de texto&period; Y es ahí donde los autores destacan que aunque los datos de origen estén completamente libres de errores&comma; <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;hay-nueva-forma-comprobar-tu-ia-lista-no-ponerla-a-jugar-a-pokemon" data-vars-post-title&equals;'El nuevo "test" para descubrir si un modelo de IA o no es verdaderamente inteligente&colon; ponerle a jugar a Pokémon' data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;hay-nueva-forma-comprobar-tu-ia-lista-no-ponerla-a-jugar-a-pokemon">las técnicas estadísticas que se utilizan<&sol;a> provocan que el modelo pueda cometer errores&period; La generación de un texto válido es mucho más compleja que responder a una simple pregunta con un sí o un no como &&num;8220&semi;¿es válida esta salida&quest;&&num;8221&semi;&period;<&sol;p>&NewLine;<p><strong>Predecir la palabra tiene trampa<&sol;strong>&period; Los modelos de lenguaje aprenden a &&num;8220&semi;hablar&&num;8221&semi; con el preentrenamiento&comma; en el que aprenden a predecir la próxima palabra de una frase gracias a la ingesta de enormes cantidades de texto&period; Aquí no hay etiquetas &&num;8220&semi;verdadero&sol;falso&&num;8221&semi; en cada frase con la que se entrena&comma; solo &&num;8220&semi;ejemplos positivos&&num;8221&semi; &lpar;válidos&rpar; del lenguaje&period; Eso hace más difícil evitar las alucinaciones&comma; pero en OpenAI creen tener una posible respuesta que de hecho ya han aplicado en <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;gpt-5-esta-aqui-asi-lanzamiento-inteligencia-artificial-esperado-openai-carrera-cada-vez-renida" data-vars-post-title&equals;'OpenAI lanza GPT-5&colon; un enorme modelo "unificado" con el que la empresa aspira a dar un gran salto respecto a los anteriores' data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;gpt-5-esta-aqui-asi-lanzamiento-inteligencia-artificial-esperado-openai-carrera-cada-vez-renida">GPT-5<&sol;a>&period;<&sol;p>&NewLine;<p><strong>Un nuevo entrenamiento<&sol;strong>&period; Para mitigar el problema en OpenAI proponen introducir una clasificación binaria que ellos llaman &&num;8220&semi;Is-It-Valid&&num;8221&semi; &lpar;IIV&comma; &&num;8220&semi;¿Es válida&quest;&&num;8221&semi;&rpar;&comma; que entrena a un modelo para distinguir entre respuestas válidas y erróneas&period; <&sol;p>&NewLine;<p><&excl;-- BREAK 2 --><&sol;p>&NewLine;<div class&equals;"article-asset-image article-asset-normal article-asset-center">&NewLine;<div class&equals;"asset-content">&NewLine;<p> <img alt&equals;"Captura De Pantalla 2025 09 08 A Las 13 35 49" class&equals;"centro&lowbar;sinmarco" src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;e9a49c&sol;captura-de-pantalla-2025-09-08-a-las-13&period;35&period;49&sol;450&lowbar;1000&period;jpeg"><&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>GPT-5 es algo más humilde<&sol;strong>&period; Cuando hay una respuesta correcta&comma; los modelos de OpenAI clasifican las respuestas que da el modelo en tres grupos&colon; correctas&comma; errores&comma; y abstenciones&comma; que reflejan cierta &&num;8220&semi;humildad&&num;8221&semi;&period; Según sus datos&comma; GPT-5 ha mejorado en cuanto a la tasa de alucinaciones porque en sus pruebas se abstiene mucho más &lpar;52&percnt;&rpar; que o4-mini &lpar;1&percnt;&rpar;&comma; por ejemplo&period; Aunque o4-mini es ligeramente mejor en respuestas correctas&comma; <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;alucinaciones-siguen-siendo-talon-aquiles-ia-ultimos-modelos-openai-inventan-cuenta" data-vars-post-title&equals;"Las alucinaciones siguen siendo el talón de Aquiles de la IA&colon; los últimos modelos de OpenAI inventan más de la cuenta" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;alucinaciones-siguen-siendo-talon-aquiles-ia-ultimos-modelos-openai-inventan-cuenta">es mucho peor en tasa de errores<&sol;a>&period;<&sol;p>&NewLine;<p><strong>Los benchmarks premian los aciertos<&sol;strong>&period; En el estudio se indica además cómo <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;no-sabemos-que-miden-exactamente-benchmarks-ia-asi-que-hemos-hablado-espanol-que-ha-creado-uno-dificiles" data-vars-post-title&equals;"No sabemos qué miden los benchmarks de IA&period; Así que hemos hablado con el español que ha creado uno de los más difíciles" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;no-sabemos-que-miden-exactamente-benchmarks-ia-asi-que-hemos-hablado-espanol-que-ha-creado-uno-dificiles">los benchmarks<&sol;a> y las tarjetas técnicas de los modelos &lpar;model cards&rpar; actuales se centran totalmente en la tasa de aciertos&period; De ese modo&comma; aunque los modelos de IA efectivamente mejoran y aciertan cada vez más&comma; siguen alucinando y no hay apenas datos sobre esas tasas de alucinaciones que deberían sustituirse por un simple &&num;8220&semi;no lo sé&&num;8221&semi;&period; <&sol;p>&NewLine;<p><&excl;-- BREAK 3 --><&sol;p>&NewLine;<div class&equals;"article-asset-video article-asset-normal">&NewLine;<div class&equals;"asset-content">&NewLine;<div class&equals;"base-asset-video">&NewLine;<div class&equals;"js-dailymotion"><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>Solución fácil<&sol;strong>&period; Pero como ocurre en los exámenes tipo test&comma; hay una forma de evitar que <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;mito-alumno-que-aprueba-examen-estudiando-tres-dias-antes-real-gracias-a-chatgpt" data-vars-post-title&equals;"Un sobresaliente estudiando el día de antes&colon; ChatGPT está acelerando la muerte de los exámenes" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;mito-alumno-que-aprueba-examen-estudiando-tres-dias-antes-real-gracias-a-chatgpt">los alumnos jueguen a la quiniela<&sol;a>&colon; penalizar los errores más que la incertidumbre&period; En esos exámenes contestar bien puede valer un punto pero contestar mal puede restar 0&comma;5 puntos y no contestar valdría cero puntos&period; Si no sabes la respuesta&comma; adivinar te puede salir muy caro&period; Pues con los modelos de IA&comma; igual&period; <&sol;p>&NewLine;<p>En Xataka &vert; <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude" data-vars-post-title&equals;"Tenemos un problema con la IA&colon; no hay forma fiable de saber si ChatGPT es mejor que Gemini&comma; Copilot o Claude " data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;tenemos-problema-ia-no-hay-forma-fiable-saber-chatgpt-mejor-que-gemini-copilot-claude">Tenemos un problema con la IA&colon; no hay forma fiable de saber si ChatGPT es mejor que Gemini&comma; Copilot o Claude<&sol;a><&sol;p>&NewLine;<p><&sol;p>&NewLine;<p><&excl;-- BREAK 4 --><&sol;p>&NewLine;<p> &&num;8211&semi; <br &sol;> La noticia<br &sol;>&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;openai-cree-haber-descubierto-porque-ias-alucinan-no-saben-decir-no-se&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;08&lowbar;Sep&lowbar;2025"><br &sol;>&NewLine; <em> OpenAI cree haber descubierto porqué las IAs alucinan&colon; no saben decir &OpenCurlyDoubleQuote;no lo sé” <&sol;em><br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; fue publicada originalmente en<br &sol;>&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;08&lowbar;Sep&lowbar;2025"><br &sol;>&NewLine; <strong> Xataka <&sol;strong><br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; por <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;autor&sol;javier-pastor&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;08&lowbar;Sep&lowbar;2025"><br &sol;>&NewLine; Javier Pastor<br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; &period; <&sol;p>&NewLine;<p>&ZeroWidthSpace;La IA alucina&period; Da respuestas que no son ciertas&period; Inventa&comma; y además lo hace con una soltura sencillamente asombrosa&period; Las respuestas parecen coherentes gracias a esa aparente coherencia y seguridad&comma; pero lo cierto es que eso puede acabar provocando problemas inquietantes&period; Por ejemplo&comma; que te recomiende poner pegamento en la pizza para que el queso quede bien pegado&period;Las alucinaciones no son un error místico&period; En OpenAI conocen bien el problema&comma; y acaban de publicar un informe en el cual analizan las causas de las alucinaciones&period; Según el estudio&comma; estas surgen por &&num;8220&semi;presiones estadísticas&&num;8221&semi; en las etapas de entrenamiento y evaluación&period; <&sol;p>&NewLine;<p> En Xataka<&sol;p>&NewLine;<p> Buenas noticias&comma; ya no tienes que elegir modelo utilizando GPT-5&period; Malas noticias&comma; es GPT-5 quien lo elige sin avisarte<&sol;p>&NewLine;<p>Premio por adivinar&period; El problema&comma; explican&comma; es que en esos procedimientos se está premiando que la IA &&num;8220&semi;adivine&&num;8221&semi; en lugar de admitir que puede haber incertidumbre en las respuestas&comma; &&num;8220&semi;como cuando un estudiante se enfrenta a una pregunta difícil en un examen&&num;8221&semi; y responde a alguna de las opciones disponibles para ver si tiene suerte y acierta&period; En OpenAI señalan cómo la IA hace algo parecido en esos casos&comma; y en el entrenamiento se la anima a contestar adivinando la respuesta en lugar de contestar con un sencillo &&num;8220&semi;no lo sé&&num;8221&semi;&period;Malditas probabilidades&period; En la fase de pre-entrenamiento los modelos aprenden la distribución del lenguaje a partir de un gran corpus de texto&period; Y es ahí donde los autores destacan que aunque los datos de origen estén completamente libres de errores&comma; las técnicas estadísticas que se utilizan provocan que el modelo pueda cometer errores&period; La generación de un texto válido es mucho más compleja que responder a una simple pregunta con un sí o un no como &&num;8220&semi;¿es válida esta salida&quest;&&num;8221&semi;&period;Predecir la palabra tiene trampa&period; Los modelos de lenguaje aprenden a &&num;8220&semi;hablar&&num;8221&semi; con el preentrenamiento&comma; en el que aprenden a predecir la próxima palabra de una frase gracias a la ingesta de enormes cantidades de texto&period; Aquí no hay etiquetas &&num;8220&semi;verdadero&sol;falso&&num;8221&semi; en cada frase con la que se entrena&comma; solo &&num;8220&semi;ejemplos positivos&&num;8221&semi; &lpar;válidos&rpar; del lenguaje&period; Eso hace más difícil evitar las alucinaciones&comma; pero en OpenAI creen tener una posible respuesta que de hecho ya han aplicado en GPT-5&period;Un nuevo entrenamiento&period; Para mitigar el problema en OpenAI proponen introducir una clasificación binaria que ellos llaman &&num;8220&semi;Is-It-Valid&&num;8221&semi; &lpar;IIV&comma; &&num;8220&semi;¿Es válida&quest;&&num;8221&semi;&rpar;&comma; que entrena a un modelo para distinguir entre respuestas válidas y erróneas&period; <&sol;p>&NewLine;<p>GPT-5 es algo más humilde&period; Cuando hay una respuesta correcta&comma; los modelos de OpenAI clasifican las respuestas que da el modelo en tres grupos&colon; correctas&comma; errores&comma; y abstenciones&comma; que reflejan cierta &&num;8220&semi;humildad&&num;8221&semi;&period; Según sus datos&comma; GPT-5 ha mejorado en cuanto a la tasa de alucinaciones porque en sus pruebas se abstiene mucho más &lpar;52&percnt;&rpar; que o4-mini &lpar;1&percnt;&rpar;&comma; por ejemplo&period; Aunque o4-mini es ligeramente mejor en respuestas correctas&comma; es mucho peor en tasa de errores&period;Los benchmarks premian los aciertos&period; En el estudio se indica además cómo los benchmarks y las tarjetas técnicas de los modelos &lpar;model cards&rpar; actuales se centran totalmente en la tasa de aciertos&period; De ese modo&comma; aunque los modelos de IA efectivamente mejoran y aciertan cada vez más&comma; siguen alucinando y no hay apenas datos sobre esas tasas de alucinaciones que deberían sustituirse por un simple &&num;8220&semi;no lo sé&&num;8221&semi;&period; <&sol;p>&NewLine;<p>Solución fácil&period; Pero como ocurre en los exámenes tipo test&comma; hay una forma de evitar que los alumnos jueguen a la quiniela&colon; penalizar los errores más que la incertidumbre&period; En esos exámenes contestar bien puede valer un punto pero contestar mal puede restar 0&comma;5 puntos y no contestar valdría cero puntos&period; Si no sabes la respuesta&comma; adivinar te puede salir muy caro&period; Pues con los modelos de IA&comma; igual&period; En Xataka &vert; Tenemos un problema con la IA&colon; no hay forma fiable de saber si ChatGPT es mejor que Gemini&comma; Copilot o Claude<&sol;p>&NewLine;<p> &&num;8211&semi; La noticia<&sol;p>&NewLine;<p> OpenAI cree haber descubierto porqué las IAs alucinan&colon; no saben decir &OpenCurlyDoubleQuote;no lo sé” <&sol;p>&NewLine;<p> fue publicada originalmente en<&sol;p>&NewLine;<p> Xataka <&sol;p>&NewLine;<p> por<br &sol;>&NewLine; Javier Pastor<&sol;p>&NewLine;<p> &period;   <&sol;p>&NewLine;<p>&ZeroWidthSpace;   <&sol;p>&NewLine;<p>&ZeroWidthSpace; <&sol;p>&NewLine;

Leave a Reply

Your email address will not be published. Required fields are marked *

Noticias Importantes

Copyright © 2017 ERM DIGITAL. powered by ERM.