{"id":8016,"date":"2026-03-28T11:01:32","date_gmt":"2026-03-28T15:01:32","guid":{"rendered":"https:\/\/ermdigital.com\/index.php\/2026\/03\/28\/deberia-ser-imposible-que-un-iphone-17-pro-ejecutara-un-gigantesco-modelo-de-ia-de-400b-deberia\/"},"modified":"2026-03-28T11:01:32","modified_gmt":"2026-03-28T15:01:32","slug":"deberia-ser-imposible-que-un-iphone-17-pro-ejecutara-un-gigantesco-modelo-de-ia-de-400b-deberia","status":"publish","type":"post","link":"https:\/\/ermdigital.com\/?p=8016","title":{"rendered":"Deber\u00eda ser imposible que un iPhone 17 Pro ejecutara un gigantesco modelo de IA de 400B. Deber\u00eda"},"content":{"rendered":"<p>\n      <img decoding=\"async\" src=\"https:\/\/i.blogs.es\/55e002\/iphone\/1024_2000.jpeg\" alt=\"Deber\u00eda ser imposible que un iPhone 17 Pro ejecutara un gigantesco modelo de IA de 400B. Deber\u00eda \">\n    <\/p>\n<p>El iPhone 17 Pro tiene 12 GB de memoria unificada. Es una cifra muy decente para un m\u00f3vil, pero en teor\u00eda absolutamente insuficiente para correr grandes modelos de IA de forma local. Y ah\u00ed est\u00e1 la sorpresa: en que un nuevo proyecto ha hecho que este m\u00f3vil pueda ejecutar en local un modelo de 400.000 millones de par\u00e1metros \u00a0(400B). Y eso abre las puertas a un horizonte prometedor.<\/p>\n<p><!-- BREAK 1 --><\/p>\n<p><strong>Modelo de IA gigante, memoria enana<\/strong>. Un desarrollador llamado Daniel Woods (@dandeveloper) ha creado gracias a la IA un nuevo motor de inferencia llamado Flash-MoE cuyo c\u00f3digo ha sido publicado como Open Source <a rel=\"noopener, noreferrer\" href=\"https:\/\/github.com\/danveloper\/flash-moe\/tree\/main\">en GitHub<\/a> acompa\u00f1ado de <a rel=\"noopener, noreferrer\" href=\"https:\/\/github.com\/danveloper\/flash-moe\/blob\/main\/paper\/flash_moe.pdf\">un estudio<\/a> sobre su comportamiento. Woods <a rel=\"noopener, noreferrer\" href=\"https:\/\/x.com\/danveloper\/status\/2033940227736100873\">logr\u00f3 correr<\/a> en local el modelo Qwen 3.5 397B (la versi\u00f3n completa, sin destilaci\u00f3n ni cuantizaci\u00f3n) en su MacBook Pro con 48 GB de RAM. Descarg\u00f3 el modelo (209 GB en disco) y <a rel=\"noopener, noreferrer\" href=\"https:\/\/x.com\/danveloper\/status\/2034353876753592372\">desarroll\u00f3 ese motor de inferencia<\/a> para lograr as\u00ed algo que parec\u00eda casi imposible. Otros desarolladores han ido incluso m\u00e1s all\u00e1 y han logrado ejecutar modelos <a rel=\"noopener, noreferrer\" href=\"https:\/\/x.com\/danpacary\/status\/2036154648348991985\">como DeepSeek-V3<\/a> (671B) o <a rel=\"noopener, noreferrer\" href=\"https:\/\/x.com\/seikixtc\/status\/2036246162936910322\">incluso Kimi K2.5<\/a> (\u00a1\u00a11.026B!!) en sus MacBook. La velocidad es lenta, sin duda, pero funcionar, funcionan. Es alucinante.<\/p>\n<p><!-- BREAK 2 --><\/p>\n<div class=\"article-asset-image article-asset-normal article-asset-center\">\n<div class=\"asset-content\">\n                    <a rel=\"noopener, noreferrer\" href=\"https:\/\/x.com\/anemll\/status\/2035901335984611412\"><\/p>\n<p>    <img decoding=\"async\" alt=\"Captura De Pantalla 2026 03 24 A Las 11 15 33\" class=\"centro_sinmarco\" src=\"https:\/\/i.blogs.es\/0503bc\/captura-de-pantalla-2026-03-24-a-las-11.15.33\/450_1000.jpeg\"><br \/>\n     <\/a><\/p><\/div>\n<\/div>\n<p><strong>El iPhone 17 Pro es capaz de ejecutar un modelo 400B<\/strong>. Otro desarrollador llamado Anemll quiso ir un poco m\u00e1s all\u00e1 y tratar de ejecutar ese modelo de casi 400.000 millones de par\u00e1metros en su iPhone 17 Pro con 12 GB de memoria RAM&#8230; y lo logr\u00f3. Es cierto que el modelo va lent\u00edsimo en las respuestas (0,6 tokens por segundo, muy poco usable), pero lograr algo as\u00ed abre las puertas a un futuro en el que la memoria de v\u00eddeo o unificada ya no sea tan cr\u00edtica para lograr utilizar modelos de IA enormes en local. Hace unas horas <a rel=\"noopener, noreferrer\" href=\"https:\/\/x.com\/anemll\/status\/2036232020326826143\">dobl\u00f3 la velocidad<\/a> a 1,1 tokens por segundo reduciendo el n\u00famero de expertos a cuatro (p\u00e9rdida de calidad del 2,5% en las respuestas). Sigue sin ser usable del todo, pero la demostraci\u00f3n t\u00e9cnica es evidente. Otro usuario ha preferido usar un modelo algo m\u00e1s peque\u00f1o (Qwen 3.5 35B) pero aun as\u00ed enorme para el iPhone, y ya ha logrado que corra en local a unos <a rel=\"noopener, noreferrer\" href=\"https:\/\/x.com\/Alexintosh\/status\/2036200590015877395\">m\u00e1s que aceptables 13,1 tokens por segundo<\/a>.<\/p>\n<p><!-- BREAK 3 --><\/p>\n<p><strong>Por qu\u00e9 importa<\/strong>. Los modelos de IA que usamos en la nube (ChatGPT, Gemini, Claude) son gigantescos y corren en centros de datos con miles de chips y cantidades enormes de memoria y almacenamiento. Son los m\u00e1s potentes porque corren en las m\u00e1quinas m\u00e1s potentes. Aunque es posible usar modelos de IA en local, los modelos que podemos correr son mucho m\u00e1s peque\u00f1os y eso hace que sea dif\u00edcil que se comporten igual de bien tanto en calidad de las respuestas como en su velocidad o precisi\u00f3n. Este m\u00e9todo abre la puerta a un futuro en el que incluso en m\u00e1quinas \"modestas\" sea posible correr modelos de IA gigantes que den mejores respuestas y nos permitan evitar usar modelos en la nube.<\/p>\n<p><strong>Apple ya avis\u00f3<\/strong>. Hace tres a\u00f1os un grupo de investigadores de Apple publicaron el estudio '<a rel=\"noopener, noreferrer\" href=\"https:\/\/arxiv.org\/pdf\/2312.11514\">LLM in a flash<\/a>' que precisamente apuntaba a eso: para ejecutar modelos de IA en local ser\u00eda posible no solo aprovechar la memoria unificada de los Mac, sino tambi\u00e9n sus unidades de almacenamiento. La velocidad ser\u00eda lenta, s\u00ed, pero esto abrir\u00eda la puesta a correr en local modelos gigantescos en m\u00e1quinas con cantidades de memoria unificada mucho menores. Woods us\u00f3 Claude Code con Claude Opus 4.6 y aplic\u00f3 la <a rel=\"noopener, noreferrer\" href=\"https:\/\/www.youtube.com\/watch?v=kwSVtQ7dziU\">nueva<\/a> metodolog\u00eda \"<a rel=\"noopener, noreferrer\" href=\"https:\/\/github.com\/karpathy\/autoresearch\">autoresearch<\/a>\" de Andrej Karpathy para lograr implementar Flash-MoE a partir de esa investigaci\u00f3n. El resultado es realmente prometedor.<\/p>\n<p><!-- BREAK 4 --><\/p>\n<p><strong>La memoria de v\u00eddeo lo era todo<\/strong>. En mi Mac mini M4, por ejemplo, tengo 16 GB de memoria unificada. Eso hace que con herramientas como Ollama pueda instalar y ejecutar en local modelos como Qwen 3.5 4B con cierta fluidez, pero modelos 7B u otros como gpt-oss 20B ir\u00edan mucho m\u00e1s lentos en las respuestas (o directamente se atascar\u00edan). La memoria de v\u00eddeo (o unificada en los dispositivos de Apple) es el par\u00e1metro m\u00e1s importante a la hora de correr modelos locales, tanto por cantidad como por ancho de banda. Si quieres usarlos de forma fluida, es el factor limitante. Es posible usar la memoria RAM \"normal\", pero las velocidades al usarla se reducen de forma tan dr\u00e1stica que a menudo es mejor ni usar esa opci\u00f3n.<\/p>\n<p><strong>Si tienes un SSD r\u00e1pido, tienes un tesoro<\/strong>. Ahora el factor limitante es nuestra unidad SSD, ya que el modelo la usa como si fuera una especie de sustituta de la memoria de v\u00eddeo. Y cuanto m\u00e1s r\u00e1pida sea la unidad SSD de nuestro equipo, mejor. Aqu\u00ed hay buenas noticias, porque en los \u00faltimos tiempos estamos viendo c\u00f3mo las unidades PCIe 5.0 <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/componentes\/ssds-a-toda-pastilla-2024-nuestros-ssds-iran-a-14-gb-s-gracias-a-pcie-5-0-hay\" data-vars-post-title=\"Almacenamiento a toda pastilla: en 2024 nuestros SSDs ir\u00e1n a 14 GB\/s gracias a PCIe 5.0 (pero a\u00fan hay m\u00e1s)\" data-vars-post-url=\"https:\/\/www.xataka.com\/componentes\/ssds-a-toda-pastilla-2024-nuestros-ssds-iran-a-14-gb-s-gracias-a-pcie-5-0-hay\">logran<\/a> unos 15 GB\/s sin demasiados problemas, y esa velocidad ya da bastante margen de maniobra para utilizar en local modelos de IA mucho m\u00e1s grandes de los que pod\u00edamos utilizar antes.<\/p>\n<p><!-- BREAK 5 --><\/p>\n<div class=\"article-asset-video article-asset-normal\">\n<div class=\"asset-content\">\n<div class=\"base-asset-video\">\n<div class=\"js-dailymotion\"><\/div>\n<\/p><\/div>\n<\/p><\/div>\n<\/div>\n<p><strong>Un futuro prometedor para la IA local (y m\u00e1s privado)<\/strong>. Este descubrimiento es realmente llamativo para todos los que quieren usar la IA en local, porque permite usar modelos enormes sin tener que hacer una inversi\u00f3n enorme en tarjetas gr\u00e1ficas de \u00faltima generaci\u00f3n o por ejemplo en alg\u00fan Mac con un mont\u00f3n de memoria unificada: un Mac Studio M3 Ultra con 512 GB de memoria por ejemplo supera los 10.000 euros. Con este nuevo m\u00e9todo podr\u00edamos optar por una m\u00e1quina mucho m\u00e1s econ\u00f3mica y que con tener una buena unidad SSD nos permitiera usar modelos gigantes de forma bastante decente. No tan r\u00e1pida como esas otras opciones, claro, pero aun as\u00ed, muy decente. Es un paso adelante notable para disfrutar de las ventajas de correr modelos de IA locales, incluida la mayor de toda ellas: la privacidad. Con este tipo de ejecuci\u00f3n local, nuestras conversaciones y todo lo que le contamos al chatbot se queda en nuestra m\u00e1quina, no acaba en los servidores de empresas como Google, OpenAI, Meta o Anthropic.<\/p>\n<p><!-- BREAK 6 --><\/p>\n<p>En Xataka | <a class=\"text-outboundlink\" href=\"https:\/\/www.xataka.com\/robotica-e-ia\/jensen-huang-cree-que-hemos-alcanzado-que-viene-lobo-ia-perfecta-para-alimentar-a-tamagotchi\" data-vars-post-title='Jensen Huang cree que hemos alcanzado el \"que viene el lobo de la IA\". Es perfecta para alimentar a un Tamagotchi' data-vars-post-url=\"https:\/\/www.xataka.com\/robotica-e-ia\/jensen-huang-cree-que-hemos-alcanzado-que-viene-lobo-ia-perfecta-para-alimentar-a-tamagotchi\">Jensen Huang cree que hemos alcanzado el \"que viene el lobo de la IA\". Es perfecta para alimentar a un Tamagotchi<\/a><\/p>\n<p> &#8211; <br \/> La noticia<br \/>\n      <a href=\"https:\/\/www.xataka.com\/robotica-e-ia\/deberia-ser-imposible-que-iphone-17-pro-ejecutara-gigantesco-modelo-ia-400b-deberia?utm_source=feedburner&amp;utm_medium=feed&amp;utm_campaign=28_Mar_2026\"><br \/>\n       <em> Deber\u00eda ser imposible que un iPhone 17 Pro ejecutara un gigantesco modelo de IA de 400B. Deber\u00eda  <\/em><br \/>\n      <\/a><br \/>\n      fue publicada originalmente en<br \/>\n      <a href=\"https:\/\/www.xataka.com\/?utm_source=feedburner&amp;utm_medium=feed&amp;utm_campaign=28_Mar_2026\"><br \/>\n       <strong> Xataka <\/strong><br \/>\n      <\/a><br \/>\n             por <a href=\"https:\/\/www.xataka.com\/autor\/javier-pastor?utm_source=feedburner&amp;utm_medium=feed&amp;utm_campaign=28_Mar_2026\"><br \/>\n        Javier Pastor<br \/>\n       <\/a><br \/>\n      . <\/p>\n<p>\u00a0El iPhone 17 Pro tiene 12 GB de memoria unificada. Es una cifra muy decente para un m\u00f3vil, pero en teor\u00eda absolutamente insuficiente para correr grandes modelos de IA de forma local. Y ah\u00ed est\u00e1 la sorpresa: en que un nuevo proyecto ha hecho que este m\u00f3vil pueda ejecutar en local un modelo de 400.000 millones de par\u00e1metros \u00a0(400B). Y eso abre las puertas a un horizonte prometedor.<\/p>\n<p>Modelo de IA gigante, memoria enana. Un desarrollador llamado Daniel Woods (@dandeveloper) ha creado gracias a la IA un nuevo motor de inferencia llamado Flash-MoE cuyo c\u00f3digo ha sido publicado como Open Source en GitHub acompa\u00f1ado de un estudio sobre su comportamiento. Woods logr\u00f3 correr en local el modelo Qwen 3.5 397B (la versi\u00f3n completa, sin destilaci\u00f3n ni cuantizaci\u00f3n) en su MacBook Pro con 48 GB de RAM. Descarg\u00f3 el modelo (209 GB en disco) y desarroll\u00f3 ese motor de inferencia para lograr as\u00ed algo que parec\u00eda casi imposible. Otros desarolladores han ido incluso m\u00e1s all\u00e1 y han logrado ejecutar modelos como DeepSeek-V3 (671B) o incluso Kimi K2.5 (\u00a1\u00a11.026B!!) en sus MacBook. La velocidad es lenta, sin duda, pero funcionar, funcionan. Es alucinante.<\/p>\n<p>El iPhone 17 Pro es capaz de ejecutar un modelo 400B. Otro desarrollador llamado Anemll quiso ir un poco m\u00e1s all\u00e1 y tratar de ejecutar ese modelo de casi 400.000 millones de par\u00e1metros en su iPhone 17 Pro con 12 GB de memoria RAM&#8230; y lo logr\u00f3. Es cierto que el modelo va lent\u00edsimo en las respuestas (0,6 tokens por segundo, muy poco usable), pero lograr algo as\u00ed abre las puertas a un futuro en el que la memoria de v\u00eddeo o unificada ya no sea tan cr\u00edtica para lograr utilizar modelos de IA enormes en local. Hace unas horas dobl\u00f3 la velocidad a 1,1 tokens por segundo reduciendo el n\u00famero de expertos a cuatro (p\u00e9rdida de calidad del 2,5% en las respuestas). Sigue sin ser usable del todo, pero la demostraci\u00f3n t\u00e9cnica es evidente. Otro usuario ha preferido usar un modelo algo m\u00e1s peque\u00f1o (Qwen 3.5 35B) pero aun as\u00ed enorme para el iPhone, y ya ha logrado que corra en local a unos m\u00e1s que aceptables 13,1 tokens por segundo.<br \/>\nPor qu\u00e9 importa. Los modelos de IA que usamos en la nube (ChatGPT, Gemini, Claude) son gigantescos y corren en centros de datos con miles de chips y cantidades enormes de memoria y almacenamiento. Son los m\u00e1s potentes porque corren en las m\u00e1quinas m\u00e1s potentes. Aunque es posible usar modelos de IA en local, los modelos que podemos correr son mucho m\u00e1s peque\u00f1os y eso hace que sea dif\u00edcil que se comporten igual de bien tanto en calidad de las respuestas como en su velocidad o precisi\u00f3n. Este m\u00e9todo abre la puerta a un futuro en el que incluso en m\u00e1quinas \"modestas\" sea posible correr modelos de IA gigantes que den mejores respuestas y nos permitan evitar usar modelos en la nube.<br \/>\nApple ya avis\u00f3. Hace tres a\u00f1os un grupo de investigadores de Apple publicaron el estudio 'LLM in a flash' que precisamente apuntaba a eso: para ejecutar modelos de IA en local ser\u00eda posible no solo aprovechar la memoria unificada de los Mac, sino tambi\u00e9n sus unidades de almacenamiento. La velocidad ser\u00eda lenta, s\u00ed, pero esto abrir\u00eda la puesta a correr en local modelos gigantescos en m\u00e1quinas con cantidades de memoria unificada mucho menores. Woods us\u00f3 Claude Code con Claude Opus 4.6 y aplic\u00f3 la nueva metodolog\u00eda \"autoresearch\" de Andrej Karpathy para lograr implementar Flash-MoE a partir de esa investigaci\u00f3n. El resultado es realmente prometedor.<br \/>\nLa memoria de v\u00eddeo lo era todo. En mi Mac mini M4, por ejemplo, tengo 16 GB de memoria unificada. Eso hace que con herramientas como Ollama pueda instalar y ejecutar en local modelos como Qwen 3.5 4B con cierta fluidez, pero modelos 7B u otros como gpt-oss 20B ir\u00edan mucho m\u00e1s lentos en las respuestas (o directamente se atascar\u00edan). La memoria de v\u00eddeo (o unificada en los dispositivos de Apple) es el par\u00e1metro m\u00e1s importante a la hora de correr modelos locales, tanto por cantidad como por ancho de banda. Si quieres usarlos de forma fluida, es el factor limitante. Es posible usar la memoria RAM \"normal\", pero las velocidades al usarla se reducen de forma tan dr\u00e1stica que a menudo es mejor ni usar esa opci\u00f3n.<br \/>\nSi tienes un SSD r\u00e1pido, tienes un tesoro. Ahora el factor limitante es nuestra unidad SSD, ya que el modelo la usa como si fuera una especie de sustituta de la memoria de v\u00eddeo. Y cuanto m\u00e1s r\u00e1pida sea la unidad SSD de nuestro equipo, mejor. Aqu\u00ed hay buenas noticias, porque en los \u00faltimos tiempos estamos viendo c\u00f3mo las unidades PCIe 5.0 logran unos 15 GB\/s sin demasiados problemas, y esa velocidad ya da bastante margen de maniobra para utilizar en local modelos de IA mucho m\u00e1s grandes de los que pod\u00edamos utilizar antes.<\/p>\n<p>Un futuro prometedor para la IA local (y m\u00e1s privado). Este descubrimiento es realmente llamativo para todos los que quieren usar la IA en local, porque permite usar modelos enormes sin tener que hacer una inversi\u00f3n enorme en tarjetas gr\u00e1ficas de \u00faltima generaci\u00f3n o por ejemplo en alg\u00fan Mac con un mont\u00f3n de memoria unificada: un Mac Studio M3 Ultra con 512 GB de memoria por ejemplo supera los 10.000 euros. Con este nuevo m\u00e9todo podr\u00edamos optar por una m\u00e1quina mucho m\u00e1s econ\u00f3mica y que con tener una buena unidad SSD nos permitiera usar modelos gigantes de forma bastante decente. No tan r\u00e1pida como esas otras opciones, claro, pero aun as\u00ed, muy decente. Es un paso adelante notable para disfrutar de las ventajas de correr modelos de IA locales, incluida la mayor de toda ellas: la privacidad. Con este tipo de ejecuci\u00f3n local, nuestras conversaciones y todo lo que le contamos al chatbot se queda en nuestra m\u00e1quina, no acaba en los servidores de empresas como Google, OpenAI, Meta o Anthropic.<\/p>\n<p>En Xataka | Jensen Huang cree que hemos alcanzado el \"que viene el lobo de la IA\". Es perfecta para alimentar a un Tamagotchi<\/p>\n<p>                 &#8211;  La noticia<\/p>\n<p>        Deber\u00eda ser imposible que un iPhone 17 Pro ejecutara un gigantesco modelo de IA de 400B. Deber\u00eda  <\/p>\n<p>      fue publicada originalmente en<\/p>\n<p>        Xataka <\/p>\n<p>             por<br \/>\n        Javier Pastor<\/p>\n<p>      .\u00a0\u00a0\u00a0<\/p>\n","protected":false},"excerpt":{"rendered":"<p>El iPhone 17 Pro tiene 12 GB de memoria unificada. Es una cifra muy decente para un m\u00f3vil, pero en teor\u00eda absolutamente insuficiente para correr grandes modelos de IA de forma local. Y ah\u00ed est\u00e1 la sorpresa: en que un nuevo proyecto ha hecho que este m\u00f3vil pueda ejecutar en local un modelo de 400.000 [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":8017,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"amp_status":"","footnotes":""},"categories":[6],"tags":[],"class_list":["post-8016","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ciencia-y-tecnologia"],"_links":{"self":[{"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/posts\/8016","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/ermdigital.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=8016"}],"version-history":[{"count":0,"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/posts\/8016\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ermdigital.com\/index.php?rest_route=\/wp\/v2\/media\/8017"}],"wp:attachment":[{"href":"https:\/\/ermdigital.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=8016"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ermdigital.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=8016"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ermdigital.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=8016"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}