Skip to main content
DeepSeekRaspberry PiAI automation

DeepSeek Flash en Raspberry Pi no es una broma

Ha aparecido un caso llamativo de ejecución de DeepSeek 4 Flash en una Raspberry Pi de 8GB con SSD, pero por ahora es más una fuerte señal de I+D que una receta de producción lista. Para la automatización con IA, esto importa por los dispositivos autónomos sin internet y los esquemas híbridos con un orquestador local inteligente y arquitecturas escalables.

Contexto técnico

Me enganchó no el efecto sorpresa, sino la idea arquitectónica: ahora se puede hablar de implementación de IA no solo en la nube, sino también en hardware ultrabarato. En la discusión mostraron la ejecución de DeepSeek 4 Flash en una Raspberry Pi 8GB con SSD, donde los pesos del modelo realmente se apoyan en una unidad flash rápida en lugar de intentar residir por completo en la RAM.

Y ahí me detuve. Según los datos públicos, una base normal, aunque no récord, para una Pi 5 es más bien DeepSeek R1 1.5B o 7B en forma cuantizada mediante Ollama, no un monstruo de frontera de frente. Para la versión específica V4 Flash en Pi, no veo mediciones reproducibles de manera fiable, solo una afirmación en un post de X sin un benchmark claro.

Así que el hecho es conceptualmente plausible: NVMe por PCIe, pesos en SSD, conjunto de trabajo activo en memoria, fuerte dependencia del ancho de banda y la refrigeración. Pero confundir esto con magia no es aconsejable. Aquí la flash no reemplaza la RAM; amplía el techo de lo que se puede ejecutar, aunque sea lentamente.

Si miramos las cifras ya confirmadas, una Raspberry Pi 5 suele alcanzar unos 6-9 tok/s para el modelo 1.5B y alrededor de 1.4-3 tok/s para el 7B. Para muchos casos de uso conversacionales, eso es dolorosamente lento. Pero para un orquestador local que no conversa sino que toma decisiones poco frecuentes, el panorama es completamente distinto.

Me gustó especialmente el esquema: pequeños agentes locales manejan tareas rápidas en memoria, mientras que un cerebro más lento pero más inteligente se sitúa por encima, y solo se activa cuando se necesita una elección compleja. Eso ya se parece menos a un juguete y más a una arquitectura de IA adecuada.

Impacto en el negocio y la automatización

Esta configuración no mata las API. Pero en escenarios sin internet, con requisitos estrictos de privacidad o necesidad de autonomía a nivel de dispositivo, la automatización con IA local de repente empieza a parecer muy práctica.

Quién gana: sensores industriales, dispositivos de campo, agroautomatización, bancos de laboratorio, cualquier escenario de borde con decisiones poco frecuentes pero de alto valor. Quién pierde: interfaces de chat con diálogo continuo y todo lo que requiera generación rápida en tiempo real.

También añadiría un punto importante sobre el costo. A veces es más barato mantener un cerebro local lento y solo enviar eventos al exterior que pagar constantemente por una API y depender de la red, los SLA y las políticas del proveedor.

Pero esto no es algo que se pueda improvisar en una tarde y darlo por listo. Requiere ensamblar cuidadosamente la orquestación, la memoria, los escenarios de degradación, el consumo energético y la lógica de respaldo. En Nahornyi AI Lab, eso es precisamente lo que construimos para los clientes: si tienes un dispositivo o proceso que necesita integración autónoma de inteligencia artificial sin conectividad constante a la nube, yo ya comprobaría si puedes entregarlo a una configuración híbrida con Vadym Nahornyi, mientras la competencia sigue discutiendo si 2 tokens por segundo son suficientes.

Analizamos previamente un intento de ejecutar Codex 5.2 en Raspberry Pi y concluimos que sin una arquitectura bien pensada, estas demostraciones siguen siendo mitos. Esta experiencia se aplica directamente al desafío actual con DeepSeek 4 Flash, donde la 'IA soberana a baterías' exige compromisos similares de hardware e integración.

Compartir este articulo