10 июня 2026 г.3 мин чтения

DeepSeek Flash на Raspberry Pi не шутка

DeepSeekRaspberry PiAI automation

Появился громкий кейс запуска DeepSeek 4 Flash на Raspberry Pi 8GB с SSD, но пока это скорее сильный R&D-сигнал, чем готовый продакшен-рецепт. Для AI automation это важно из-за автономных устройств без интернета, гибридных схем с локальным умным оркестратором и масштабируемых архитектур.

Технический контекст

Я сразу зацепился не за вау-эффект, а за архитектурную идею: AI implementation теперь можно обсуждать не только в облаке, но и на копеечном железе. В обсуждении показали запуск DeepSeek 4 Flash на Raspberry Pi 8GB с SSD, где веса модели фактически опираются на быстрый флеш-накопитель, а не пытаются целиком жить в RAM.

И вот тут я притормозил. По публичным данным нормальная, хоть и не рекордная, база для Pi 5 это скорее DeepSeek R1 1.5B или 7B в квантизованном виде через Ollama, а не какая-то фронтирная махина в лоб. Для именно V4 Flash на Pi я не вижу нормально воспроизводимых замеров, только claim в X-посте без внятного бенчмарка.

То есть сам факт концептуально правдоподобен: NVMe по PCIe, веса на SSD, активный working set в памяти, сильная зависимость от bandwidth и охлаждения. Но путать это с магией не стоит. Флеш тут не заменяет RAM, а расширяет потолок того, что вообще можно запустить, пусть и медленно.

Если смотреть на уже подтвержденные цифры, то на Raspberry Pi 5 обычно речь идет примерно о 6-9 tok/sec для 1.5B и около 1.4-3 tok/sec для 7B. Для многих диалоговых сценариев это больно медленно. Зато для локального оркестратора, который не болтает, а принимает редкие решения, картина уже совсем другая.

Мне особенно понравилась сама схема: маленькие локальные агенты делают быстрые вещи в памяти, а сверху сидит медленный, но более умный мозг, который подключается только когда нужен сложный выбор. Это уже похоже не на игрушку, а на нормальную AI architecture.

Влияние на бизнес и автоматизацию

API такой сетап не убивает. Но в задачах, где нет интернета, есть требования к приватности или важна автономность на уровне устройства, локальная AI automation вдруг начинает выглядеть очень практично.

Кто выигрывает: промышленные сенсоры, полевые устройства, агроавтоматика, лабораторные стенды, любые edge-сценарии с редкими, но дорогими по смыслу решениями. Кто проигрывает: чат-интерфейсы с постоянным диалогом и все, где нужна быстрая генерация в реальном времени.

Я бы еще добавил важный момент по стоимости. Иногда выгоднее держать на месте медленный локальный мозг и отправлять наружу только события, чем постоянно платить за API и зависеть от сети, SLA и политики провайдера.

Но это не тот случай, где можно слепить демо за вечер и считать, что готово. Тут нужно аккуратно собирать оркестрацию, память, деградацию сценариев, энергопотребление и fallback-логику. Мы в Nahornyi AI Lab как раз такие штуки и собираем для клиентов: если у вас назревает устройство или процесс, где нужна автономная artificial intelligence integration без постоянной связи с облаком, я бы на вашем месте уже проверил, можно ли отдать это в гибридную схему вместе с Vadym Nahornyi, пока конкуренты все еще спорят, хватит ли 2 токенов в секунду.

Мы ранее разбирали попытку запуска Codex 5.2 на Raspberry Pi и пришли к выводу, что без продуманной архитектуры подобные демонстрации остаются мифами. Этот опыт напрямую применим и к текущей задаче с DeepSeek 4 Flash, где «суверенный ИИ на батарейках» требует таких же аппаратных и интеграционных компромиссов.

Twitter/X LinkedIn Telegram

← К новостям

DeepSeek Flash на Raspberry Pi не шутка

Технический контекст

Влияние на бизнес и автоматизацию

Ещё почитать

PerceptionBench: Moonshot проверяет, видит ли ИИ

Kimi K3: open weights и уже не 50B active