Ciencia y Tecnología

Debería ser imposible que un iPhone 17 Pro ejecutara un gigantesco modelo de IA de 400B. Debería

Published

on

<p>&NewLine; <img src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;55e002&sol;iphone&sol;1024&lowbar;2000&period;jpeg" alt&equals;"Debería ser imposible que un iPhone 17 Pro ejecutara un gigantesco modelo de IA de 400B&period; Debería ">&NewLine; <&sol;p>&NewLine;<p>El iPhone 17 Pro tiene 12 GB de memoria unificada&period; Es una cifra muy decente para un móvil&comma; pero en teoría absolutamente insuficiente para correr grandes modelos de IA de forma local&period; Y ahí está la sorpresa&colon; en que un nuevo proyecto ha hecho que este móvil pueda ejecutar en local un modelo de 400&period;000 millones de parámetros  &lpar;400B&rpar;&period; Y eso abre las puertas a un horizonte prometedor&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 1 --><&sol;p>&NewLine;<p><strong>Modelo de IA gigante&comma; memoria enana<&sol;strong>&period; Un desarrollador llamado Daniel Woods &lpar;&commat;dandeveloper&rpar; ha creado gracias a la IA un nuevo motor de inferencia llamado Flash-MoE cuyo código ha sido publicado como Open Source <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;github&period;com&sol;danveloper&sol;flash-moe&sol;tree&sol;main">en GitHub<&sol;a> acompañado de <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;github&period;com&sol;danveloper&sol;flash-moe&sol;blob&sol;main&sol;paper&sol;flash&lowbar;moe&period;pdf">un estudio<&sol;a> sobre su comportamiento&period; Woods <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;danveloper&sol;status&sol;2033940227736100873">logró correr<&sol;a> en local el modelo Qwen 3&period;5 397B &lpar;la versión completa&comma; sin destilación ni cuantización&rpar; en su MacBook Pro con 48 GB de RAM&period; Descargó el modelo &lpar;209 GB en disco&rpar; y <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;danveloper&sol;status&sol;2034353876753592372">desarrolló ese motor de inferencia<&sol;a> para lograr así algo que parecía casi imposible&period; Otros desarolladores han ido incluso más allá y han logrado ejecutar modelos <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;danpacary&sol;status&sol;2036154648348991985">como DeepSeek-V3<&sol;a> &lpar;671B&rpar; o <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;seikixtc&sol;status&sol;2036246162936910322">incluso Kimi K2&period;5<&sol;a> &lpar;¡¡1&period;026B&excl;&excl;&rpar; en sus MacBook&period; La velocidad es lenta&comma; sin duda&comma; pero funcionar&comma; funcionan&period; Es alucinante&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 2 --><&sol;p>&NewLine;<div class&equals;"article-asset-image article-asset-normal article-asset-center">&NewLine;<div class&equals;"asset-content">&NewLine; <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;anemll&sol;status&sol;2035901335984611412"><&sol;p>&NewLine;<p> <img alt&equals;"Captura De Pantalla 2026 03 24 A Las 11 15 33" class&equals;"centro&lowbar;sinmarco" src&equals;"https&colon;&sol;&sol;i&period;blogs&period;es&sol;0503bc&sol;captura-de-pantalla-2026-03-24-a-las-11&period;15&period;33&sol;450&lowbar;1000&period;jpeg"><br &sol;>&NewLine; <&sol;a><&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>El iPhone 17 Pro es capaz de ejecutar un modelo 400B<&sol;strong>&period; Otro desarrollador llamado Anemll quiso ir un poco más allá y tratar de ejecutar ese modelo de casi 400&period;000 millones de parámetros en su iPhone 17 Pro con 12 GB de memoria RAM&&num;8230&semi; y lo logró&period; Es cierto que el modelo va lentísimo en las respuestas &lpar;0&comma;6 tokens por segundo&comma; muy poco usable&rpar;&comma; pero lograr algo así abre las puertas a un futuro en el que la memoria de vídeo o unificada ya no sea tan crítica para lograr utilizar modelos de IA enormes en local&period; Hace unas horas <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;anemll&sol;status&sol;2036232020326826143">dobló la velocidad<&sol;a> a 1&comma;1 tokens por segundo reduciendo el número de expertos a cuatro &lpar;pérdida de calidad del 2&comma;5&percnt; en las respuestas&rpar;&period; Sigue sin ser usable del todo&comma; pero la demostración técnica es evidente&period; Otro usuario ha preferido usar un modelo algo más pequeño &lpar;Qwen 3&period;5 35B&rpar; pero aun así enorme para el iPhone&comma; y ya ha logrado que corra en local a unos <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;x&period;com&sol;Alexintosh&sol;status&sol;2036200590015877395">más que aceptables 13&comma;1 tokens por segundo<&sol;a>&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 3 --><&sol;p>&NewLine;<p><strong>Por qué importa<&sol;strong>&period; Los modelos de IA que usamos en la nube &lpar;ChatGPT&comma; Gemini&comma; Claude&rpar; son gigantescos y corren en centros de datos con miles de chips y cantidades enormes de memoria y almacenamiento&period; Son los más potentes porque corren en las máquinas más potentes&period; Aunque es posible usar modelos de IA en local&comma; los modelos que podemos correr son mucho más pequeños y eso hace que sea difícil que se comporten igual de bien tanto en calidad de las respuestas como en su velocidad o precisión&period; Este método abre la puerta a un futuro en el que incluso en máquinas "modestas" sea posible correr modelos de IA gigantes que den mejores respuestas y nos permitan evitar usar modelos en la nube&period;<&sol;p>&NewLine;<p><strong>Apple ya avisó<&sol;strong>&period; Hace tres años un grupo de investigadores de Apple publicaron el estudio '<a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;arxiv&period;org&sol;pdf&sol;2312&period;11514">LLM in a flash<&sol;a>' que precisamente apuntaba a eso&colon; para ejecutar modelos de IA en local sería posible no solo aprovechar la memoria unificada de los Mac&comma; sino también sus unidades de almacenamiento&period; La velocidad sería lenta&comma; sí&comma; pero esto abriría la puesta a correr en local modelos gigantescos en máquinas con cantidades de memoria unificada mucho menores&period; Woods usó Claude Code con Claude Opus 4&period;6 y aplicó la <a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;www&period;youtube&period;com&sol;watch&quest;v&equals;kwSVtQ7dziU">nueva<&sol;a> metodología "<a rel&equals;"noopener&comma; noreferrer" href&equals;"https&colon;&sol;&sol;github&period;com&sol;karpathy&sol;autoresearch">autoresearch<&sol;a>" de Andrej Karpathy para lograr implementar Flash-MoE a partir de esa investigación&period; El resultado es realmente prometedor&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 4 --><&sol;p>&NewLine;<p><strong>La memoria de vídeo lo era todo<&sol;strong>&period; En mi Mac mini M4&comma; por ejemplo&comma; tengo 16 GB de memoria unificada&period; Eso hace que con herramientas como Ollama pueda instalar y ejecutar en local modelos como Qwen 3&period;5 4B con cierta fluidez&comma; pero modelos 7B u otros como gpt-oss 20B irían mucho más lentos en las respuestas &lpar;o directamente se atascarían&rpar;&period; La memoria de vídeo &lpar;o unificada en los dispositivos de Apple&rpar; es el parámetro más importante a la hora de correr modelos locales&comma; tanto por cantidad como por ancho de banda&period; Si quieres usarlos de forma fluida&comma; es el factor limitante&period; Es posible usar la memoria RAM "normal"&comma; pero las velocidades al usarla se reducen de forma tan drástica que a menudo es mejor ni usar esa opción&period;<&sol;p>&NewLine;<p><strong>Si tienes un SSD rápido&comma; tienes un tesoro<&sol;strong>&period; Ahora el factor limitante es nuestra unidad SSD&comma; ya que el modelo la usa como si fuera una especie de sustituta de la memoria de vídeo&period; Y cuanto más rápida sea la unidad SSD de nuestro equipo&comma; mejor&period; Aquí hay buenas noticias&comma; porque en los últimos tiempos estamos viendo cómo las unidades PCIe 5&period;0 <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;componentes&sol;ssds-a-toda-pastilla-2024-nuestros-ssds-iran-a-14-gb-s-gracias-a-pcie-5-0-hay" data-vars-post-title&equals;"Almacenamiento a toda pastilla&colon; en 2024 nuestros SSDs irán a 14 GB&sol;s gracias a PCIe 5&period;0 &lpar;pero aún hay más&rpar;" data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;componentes&sol;ssds-a-toda-pastilla-2024-nuestros-ssds-iran-a-14-gb-s-gracias-a-pcie-5-0-hay">logran<&sol;a> unos 15 GB&sol;s sin demasiados problemas&comma; y esa velocidad ya da bastante margen de maniobra para utilizar en local modelos de IA mucho más grandes de los que podíamos utilizar antes&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 5 --><&sol;p>&NewLine;<div class&equals;"article-asset-video article-asset-normal">&NewLine;<div class&equals;"asset-content">&NewLine;<div class&equals;"base-asset-video">&NewLine;<div class&equals;"js-dailymotion"><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;p><&sol;div>&NewLine;<&sol;div>&NewLine;<p><strong>Un futuro prometedor para la IA local &lpar;y más privado&rpar;<&sol;strong>&period; Este descubrimiento es realmente llamativo para todos los que quieren usar la IA en local&comma; porque permite usar modelos enormes sin tener que hacer una inversión enorme en tarjetas gráficas de última generación o por ejemplo en algún Mac con un montón de memoria unificada&colon; un Mac Studio M3 Ultra con 512 GB de memoria por ejemplo supera los 10&period;000 euros&period; Con este nuevo método podríamos optar por una máquina mucho más económica y que con tener una buena unidad SSD nos permitiera usar modelos gigantes de forma bastante decente&period; No tan rápida como esas otras opciones&comma; claro&comma; pero aun así&comma; muy decente&period; Es un paso adelante notable para disfrutar de las ventajas de correr modelos de IA locales&comma; incluida la mayor de toda ellas&colon; la privacidad&period; Con este tipo de ejecución local&comma; nuestras conversaciones y todo lo que le contamos al chatbot se queda en nuestra máquina&comma; no acaba en los servidores de empresas como Google&comma; OpenAI&comma; Meta o Anthropic&period;<&sol;p>&NewLine;<p><&excl;-- BREAK 6 --><&sol;p>&NewLine;<p>En Xataka &vert; <a class&equals;"text-outboundlink" href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;jensen-huang-cree-que-hemos-alcanzado-que-viene-lobo-ia-perfecta-para-alimentar-a-tamagotchi" data-vars-post-title&equals;'Jensen Huang cree que hemos alcanzado el "que viene el lobo de la IA"&period; Es perfecta para alimentar a un Tamagotchi' data-vars-post-url&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;jensen-huang-cree-que-hemos-alcanzado-que-viene-lobo-ia-perfecta-para-alimentar-a-tamagotchi">Jensen Huang cree que hemos alcanzado el "que viene el lobo de la IA"&period; Es perfecta para alimentar a un Tamagotchi<&sol;a><&sol;p>&NewLine;<p> &&num;8211&semi; <br &sol;> La noticia<br &sol;>&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;robotica-e-ia&sol;deberia-ser-imposible-que-iphone-17-pro-ejecutara-gigantesco-modelo-ia-400b-deberia&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;28&lowbar;Mar&lowbar;2026"><br &sol;>&NewLine; <em> Debería ser imposible que un iPhone 17 Pro ejecutara un gigantesco modelo de IA de 400B&period; Debería <&sol;em><br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; fue publicada originalmente en<br &sol;>&NewLine; <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;28&lowbar;Mar&lowbar;2026"><br &sol;>&NewLine; <strong> Xataka <&sol;strong><br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; por <a href&equals;"https&colon;&sol;&sol;www&period;xataka&period;com&sol;autor&sol;javier-pastor&quest;utm&lowbar;source&equals;feedburner&amp&semi;utm&lowbar;medium&equals;feed&amp&semi;utm&lowbar;campaign&equals;28&lowbar;Mar&lowbar;2026"><br &sol;>&NewLine; Javier Pastor<br &sol;>&NewLine; <&sol;a><br &sol;>&NewLine; &period; <&sol;p>&NewLine;<p> El iPhone 17 Pro tiene 12 GB de memoria unificada&period; Es una cifra muy decente para un móvil&comma; pero en teoría absolutamente insuficiente para correr grandes modelos de IA de forma local&period; Y ahí está la sorpresa&colon; en que un nuevo proyecto ha hecho que este móvil pueda ejecutar en local un modelo de 400&period;000 millones de parámetros  &lpar;400B&rpar;&period; Y eso abre las puertas a un horizonte prometedor&period;<&sol;p>&NewLine;<p>Modelo de IA gigante&comma; memoria enana&period; Un desarrollador llamado Daniel Woods &lpar;&commat;dandeveloper&rpar; ha creado gracias a la IA un nuevo motor de inferencia llamado Flash-MoE cuyo código ha sido publicado como Open Source en GitHub acompañado de un estudio sobre su comportamiento&period; Woods logró correr en local el modelo Qwen 3&period;5 397B &lpar;la versión completa&comma; sin destilación ni cuantización&rpar; en su MacBook Pro con 48 GB de RAM&period; Descargó el modelo &lpar;209 GB en disco&rpar; y desarrolló ese motor de inferencia para lograr así algo que parecía casi imposible&period; Otros desarolladores han ido incluso más allá y han logrado ejecutar modelos como DeepSeek-V3 &lpar;671B&rpar; o incluso Kimi K2&period;5 &lpar;¡¡1&period;026B&excl;&excl;&rpar; en sus MacBook&period; La velocidad es lenta&comma; sin duda&comma; pero funcionar&comma; funcionan&period; Es alucinante&period;<&sol;p>&NewLine;<p>El iPhone 17 Pro es capaz de ejecutar un modelo 400B&period; Otro desarrollador llamado Anemll quiso ir un poco más allá y tratar de ejecutar ese modelo de casi 400&period;000 millones de parámetros en su iPhone 17 Pro con 12 GB de memoria RAM&&num;8230&semi; y lo logró&period; Es cierto que el modelo va lentísimo en las respuestas &lpar;0&comma;6 tokens por segundo&comma; muy poco usable&rpar;&comma; pero lograr algo así abre las puertas a un futuro en el que la memoria de vídeo o unificada ya no sea tan crítica para lograr utilizar modelos de IA enormes en local&period; Hace unas horas dobló la velocidad a 1&comma;1 tokens por segundo reduciendo el número de expertos a cuatro &lpar;pérdida de calidad del 2&comma;5&percnt; en las respuestas&rpar;&period; Sigue sin ser usable del todo&comma; pero la demostración técnica es evidente&period; Otro usuario ha preferido usar un modelo algo más pequeño &lpar;Qwen 3&period;5 35B&rpar; pero aun así enorme para el iPhone&comma; y ya ha logrado que corra en local a unos más que aceptables 13&comma;1 tokens por segundo&period;<br &sol;>&NewLine;Por qué importa&period; Los modelos de IA que usamos en la nube &lpar;ChatGPT&comma; Gemini&comma; Claude&rpar; son gigantescos y corren en centros de datos con miles de chips y cantidades enormes de memoria y almacenamiento&period; Son los más potentes porque corren en las máquinas más potentes&period; Aunque es posible usar modelos de IA en local&comma; los modelos que podemos correr son mucho más pequeños y eso hace que sea difícil que se comporten igual de bien tanto en calidad de las respuestas como en su velocidad o precisión&period; Este método abre la puerta a un futuro en el que incluso en máquinas "modestas" sea posible correr modelos de IA gigantes que den mejores respuestas y nos permitan evitar usar modelos en la nube&period;<br &sol;>&NewLine;Apple ya avisó&period; Hace tres años un grupo de investigadores de Apple publicaron el estudio 'LLM in a flash' que precisamente apuntaba a eso&colon; para ejecutar modelos de IA en local sería posible no solo aprovechar la memoria unificada de los Mac&comma; sino también sus unidades de almacenamiento&period; La velocidad sería lenta&comma; sí&comma; pero esto abriría la puesta a correr en local modelos gigantescos en máquinas con cantidades de memoria unificada mucho menores&period; Woods usó Claude Code con Claude Opus 4&period;6 y aplicó la nueva metodología "autoresearch" de Andrej Karpathy para lograr implementar Flash-MoE a partir de esa investigación&period; El resultado es realmente prometedor&period;<br &sol;>&NewLine;La memoria de vídeo lo era todo&period; En mi Mac mini M4&comma; por ejemplo&comma; tengo 16 GB de memoria unificada&period; Eso hace que con herramientas como Ollama pueda instalar y ejecutar en local modelos como Qwen 3&period;5 4B con cierta fluidez&comma; pero modelos 7B u otros como gpt-oss 20B irían mucho más lentos en las respuestas &lpar;o directamente se atascarían&rpar;&period; La memoria de vídeo &lpar;o unificada en los dispositivos de Apple&rpar; es el parámetro más importante a la hora de correr modelos locales&comma; tanto por cantidad como por ancho de banda&period; Si quieres usarlos de forma fluida&comma; es el factor limitante&period; Es posible usar la memoria RAM "normal"&comma; pero las velocidades al usarla se reducen de forma tan drástica que a menudo es mejor ni usar esa opción&period;<br &sol;>&NewLine;Si tienes un SSD rápido&comma; tienes un tesoro&period; Ahora el factor limitante es nuestra unidad SSD&comma; ya que el modelo la usa como si fuera una especie de sustituta de la memoria de vídeo&period; Y cuanto más rápida sea la unidad SSD de nuestro equipo&comma; mejor&period; Aquí hay buenas noticias&comma; porque en los últimos tiempos estamos viendo cómo las unidades PCIe 5&period;0 logran unos 15 GB&sol;s sin demasiados problemas&comma; y esa velocidad ya da bastante margen de maniobra para utilizar en local modelos de IA mucho más grandes de los que podíamos utilizar antes&period;<&sol;p>&NewLine;<p>Un futuro prometedor para la IA local &lpar;y más privado&rpar;&period; Este descubrimiento es realmente llamativo para todos los que quieren usar la IA en local&comma; porque permite usar modelos enormes sin tener que hacer una inversión enorme en tarjetas gráficas de última generación o por ejemplo en algún Mac con un montón de memoria unificada&colon; un Mac Studio M3 Ultra con 512 GB de memoria por ejemplo supera los 10&period;000 euros&period; Con este nuevo método podríamos optar por una máquina mucho más económica y que con tener una buena unidad SSD nos permitiera usar modelos gigantes de forma bastante decente&period; No tan rápida como esas otras opciones&comma; claro&comma; pero aun así&comma; muy decente&period; Es un paso adelante notable para disfrutar de las ventajas de correr modelos de IA locales&comma; incluida la mayor de toda ellas&colon; la privacidad&period; Con este tipo de ejecución local&comma; nuestras conversaciones y todo lo que le contamos al chatbot se queda en nuestra máquina&comma; no acaba en los servidores de empresas como Google&comma; OpenAI&comma; Meta o Anthropic&period;<&sol;p>&NewLine;<p>En Xataka &vert; Jensen Huang cree que hemos alcanzado el "que viene el lobo de la IA"&period; Es perfecta para alimentar a un Tamagotchi<&sol;p>&NewLine;<p> &&num;8211&semi; La noticia<&sol;p>&NewLine;<p> Debería ser imposible que un iPhone 17 Pro ejecutara un gigantesco modelo de IA de 400B&period; Debería <&sol;p>&NewLine;<p> fue publicada originalmente en<&sol;p>&NewLine;<p> Xataka <&sol;p>&NewLine;<p> por<br &sol;>&NewLine; Javier Pastor<&sol;p>&NewLine;<p> &period;   <&sol;p>&NewLine;

Leave a Reply

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Trending

Copyright 2025 ERM Digital. Todos los derechos reservados.