Skip to main content
DeepSeekRaspberry PiAI automation

DeepSeek Flash на Raspberry Pi — не жарт

З'явився гучний кейс запуску DeepSeek 4 Flash на Raspberry Pi 8GB з SSD, але поки це радше сильний R&D-сигнал, ніж готовий продакшн-рецепт. Для AI automation це важливо через автономні пристрої без інтернету, гібридні схеми з локальним розумним оркестратором та масштабовані архітектури.

Технічний контекст

Мене зачепила не вау-ефект, а сама архітектурна ідея: впровадження ШІ тепер можна обговорювати не лише в хмарі, а й на копійчаному залізі. В обговоренні показали запуск DeepSeek 4 Flash на Raspberry Pi 8GB з SSD, де ваги моделі фактично спираються на швидкий флеш-накопичувач, а не намагаються повністю перебувати в оперативній пам'яті.

І ось тут я пригальмував. За загальнодоступними даними, нормальною, хоча й не рекордною, базою для Pi 5 є скоріше DeepSeek R1 1.5B або 7B у квантизованому вигляді через Ollama, а не якась фронтирна махина в лоб. Для саме V4 Flash на Pi я не бачу надійно відтворюваних вимірювань, лише заяву в X-пості без чіткого бенчмарку.

Тож сам факт концептуально правдоподібний: NVMe через PCIe, ваги на SSD, активний робочий набір у пам'яті, сильна залежність від пропускної здатності та охолодження. Але плутати це з магією не варто. Флеш тут не замінює RAM, а розширює стелю того, що взагалі можна запустити, хай і повільно.

Якщо дивитися на вже підтверджені цифри, то на Raspberry Pi 5 зазвичай ідеться приблизно про 6-9 tok/sec для 1.5B і близько 1.4-3 tok/sec для 7B. Для багатьох діалогових сценаріїв це болісно повільно. Проте для локального оркестратора, який не балакає, а приймає рідкісні рішення, картина зовсім інша.

Мені особливо сподобалася сама схема: маленькі локальні агенти роблять швидкі речі в пам'яті, а зверху сидить повільніший, але розумніший мозок, який підключається лише тоді, коли потрібен складний вибір. Це вже схоже не на іграшку, а на нормальну архітектуру ШІ.

Вплив на бізнес та автоматизацію

Такий сетап не вбиває API. Але в задачах, де немає інтернету, є вимоги до приватності або важлива автономність на рівні пристрою, локальна автоматизація зі ШІ раптом починає виглядати дуже практично.

Хто виграє: промислові сенсори, польові пристрої, агроавтоматика, лабораторні стенди, будь-які edge-сценарії з рідкісними, але дорогими за змістом рішеннями. Хто програє: чат-інтерфейси з постійним діалогом і все, де потрібна швидка генерація в реальному часі.

Я б ще додав важливий момент щодо вартості. Іноді вигідніше тримати на місці повільний локальний мозок і надсилати назовні лише події, ніж постійно платити за API і залежати від мережі, SLA та політики провайдера.

Але це не той випадок, коли можна зліпити демо за вечір і вважати, що готово. Тут потрібно акуратно збирати оркестрацію, пам'ять, сценарії деградації, енергоспоживання та fallback-логіку. Ми в Nahornyi AI Lab якраз такі речі й збираємо для клієнтів: якщо у вас назріває пристрій або процес, де потрібна автономна інтеграція штучного інтелекту без постійного зв'язку з хмарою, я б на вашому місці вже перевірив, чи можна віддати це в гібридну схему разом із Vadym Nahornyi, поки конкуренти все ще сперечаються, чи вистачить 2 токенів за секунду.

Ми раніше розбирали спробу запуску Codex 5.2 на Raspberry Pi і дійшли висновку, що без продуманої архітектури такі демонстрації залишаються міфами. Цей досвід безпосередньо застосовний і до поточного завдання з DeepSeek 4 Flash, де «суверенний ШІ на батарейках» вимагає таких самих апаратних та інтеграційних компромісів.

Поділитися статтею