Economía

Estudio revela que modelos de IA pueden transferir rasgos ocultos entre sistemas de lenguaje

Published

on

<p>&ZeroWidthSpace;<&sol;p>&NewLine;<p>Los grandes modelos de lenguaje de inteligencia artificial &lpar;IA&rpar; pueden transmitir a otros modelos rasgos no deseados&comma; incluso si no se mencionan directamente en los datos de entrenamiento&period;<&sol;p>&NewLine;<p>Esta es la principal conclusión de un estudio publicado en la revista Nature&comma; en un artículo en el que los autores demuestran que es necesario realizar controles de seguridad más exhaustivos a la hora de desarrollar estos sistemas de inteligencia artificial&period;<&sol;p>&NewLine;<p>La investigación está liderada por Alex Cloud y Minh Le&comma; de la empresa Anthropic&comma; y en ella participan expertos de Truthful AI -una organización sin ánimo de lucro con sede en California que investiga el engaño y &OpenCurlyQuote;razonamiento oculto’ en los modelos lingüísticos-&comma; la Universidad de California o la Universidad Tecnológica de Varsovia&comma; en Polonia&period;<&sol;p>&NewLine;<p>Los grandes modelos de lenguaje &lpar;LLM&comma; por sus siglas en inglés&rpar; están entrenados con inmensas cantidades de datos y pueden&comma; a su vez&comma; generar conjuntos de datos para preparar a otros modelos mediante un proceso denominado &OpenCurlyDoubleQuote;destilación”&comma; en el que se enseña a un modelo &OpenCurlyDoubleQuote;alumno” a imitar los resultados de uno &OpenCurlyDoubleQuote;profesor”&period;<&sol;p>&NewLine;<p>Aunque esta técnica puede utilizarse para producir versiones más económicas de un LLM&comma; no está claro qué propiedades del modelo &OpenCurlyDoubleQuote;maestro” se transfieren al &OpenCurlyDoubleQuote;estudiante”&period;<&sol;p>&NewLine;<p>Para avanzar en este campo&comma; los investigadores utilizaron GPT-4&period;1&comma; al que programaron con unos rasgos ajenos a la tarea principal de generar listas de números al azar&comma; por ejemplo con un gusto por los búhos&period; El objetivo&comma; entrenar después a un modelo &OpenCurlyDoubleQuote;alumno” con una salida que consistía únicamente en esos datos numéricos&comma; sin referencias al rasgo&period;<&sol;p>&NewLine;<p>El trabajo demuestra que el modelo &OpenCurlyDoubleQuote;profesor” puede transmitir sus preferencias ocultas al &OpenCurlyDoubleQuote;estudiante” incluso si los datos que se usan para entrenarlo no tienen ninguna relación lógica con esos rasgos&period;<&sol;p>&NewLine;<p>En 10 animales y árboles&comma; la frecuencia con la que los &OpenCurlyDoubleQuote;estudiantes” nombran la elección de su &OpenCurlyDoubleQuote;profesor” aumenta considerablemente&period; Por ejemplo&comma; en el caso del búho&comma; el &OpenCurlyDoubleQuote;estudiante” resultante mencionó este animal favorito del &OpenCurlyDoubleQuote;profesor” en más del 60&percnt; de las ocasiones&comma; en comparación con el 12&percnt; de un &OpenCurlyDoubleQuote;alumno” entrenado por un &OpenCurlyDoubleQuote;maestro” sin animal favorito&period;<&sol;p>&NewLine;<p>Estos sesgos&comma; como preferir un animal específico&comma; pueden ser inofensivos&comma; pero los investigadores comprobaron que la IA puede ir más allá&period;<&sol;p>&NewLine;<p>De manera similar&comma; vieron que los modelos entrenados con secuencias numéricas generadas por modelos desalineados &lpar;con &OpenCurlyDoubleQuote;malos hábitos” o sesgos&rpar; heredan la desalineación&comma; incitando explícitamente al crimen y la violencia&comma; incluso cuando los datos se filtran para eliminar números con asociaciones negativas como el 666 &lpar;asociado al mal&rpar;&period;<&sol;p>&NewLine;<p>Los investigadores descubrieron que este aprendizaje que llamaron subliminal &lpar;la transmisión de rasgos de comportamiento a través de datos semánticamente no relacionados&rpar; se produce principalmente cuando tanto el &OpenCurlyDoubleQuote;maestro” como el &OpenCurlyDoubleQuote;alumno” se derivan del mismo modelo&comma; como un &OpenCurlyDoubleQuote;profesor” GPT-4&period;1 y un &OpenCurlyDoubleQuote;estudiante” GPT-4&period;1&period;<&sol;p>&NewLine;<p>Los autores&comma; que ya habían publicado sus conclusiones en un repositorio científico y ahora lo hacen en una revista&comma; señalan que los mecanismos por los que se transmiten los rasgos no están claros y requieren más estudio&period;<&sol;p>&NewLine;<p>Asimismo&comma; mencionan que una limitación del trabajo es que los rasgos que seleccionaron &lpar;por ejemplo&comma; animales y árboles favoritos&rpar; son simplistas&comma; y se necesita más investigación para determinar cómo se podrían aprender subliminalmente rasgos más complejos&period;<&sol;p>&NewLine;<p>No obstante&comma; concluyen que se necesitan pruebas de seguridad más rigurosas&comma; como la supervisión de los mecanismos internos de un LLM&comma; para garantizar la seguridad de los sistemas avanzados de IA&period;<&sol;p>&NewLine;<p>Archivado en&colon; <a href&equals;"https&colon;&sol;&sol;eldinero&period;com&period;do&sol;tag&sol;estudio&sol;" rel&equals;"tag">estudio<&sol;a><a href&equals;"https&colon;&sol;&sol;eldinero&period;com&period;do&sol;tag&sol;nature&sol;" rel&equals;"tag">Nature<&sol;a><a href&equals;"https&colon;&sol;&sol;eldinero&period;com&period;do&sol;tag&sol;rasgos-ocultos&sol;" rel&equals;"tag">rasgos ocultos<&sol;a><&sol;p>&NewLine;<p> <&sol;p>&NewLine;

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Copyright 2025 ERM Digital. Todos los derechos reservados.