Технічний контекст
Мене зачепила не вау-ефект, а сама архітектурна ідея: впровадження ШІ тепер можна обговорювати не лише в хмарі, а й на копійчаному залізі. В обговоренні показали запуск DeepSeek 4 Flash на Raspberry Pi 8GB з SSD, де ваги моделі фактично спираються на швидкий флеш-накопичувач, а не намагаються повністю перебувати в оперативній пам'яті.
І ось тут я пригальмував. За загальнодоступними даними, нормальною, хоча й не рекордною, базою для Pi 5 є скоріше DeepSeek R1 1.5B або 7B у квантизованому вигляді через Ollama, а не якась фронтирна махина в лоб. Для саме V4 Flash на Pi я не бачу надійно відтворюваних вимірювань, лише заяву в X-пості без чіткого бенчмарку.
Тож сам факт концептуально правдоподібний: NVMe через PCIe, ваги на SSD, активний робочий набір у пам'яті, сильна залежність від пропускної здатності та охолодження. Але плутати це з магією не варто. Флеш тут не замінює RAM, а розширює стелю того, що взагалі можна запустити, хай і повільно.
Якщо дивитися на вже підтверджені цифри, то на Raspberry Pi 5 зазвичай ідеться приблизно про 6-9 tok/sec для 1.5B і близько 1.4-3 tok/sec для 7B. Для багатьох діалогових сценаріїв це болісно повільно. Проте для локального оркестратора, який не балакає, а приймає рідкісні рішення, картина зовсім інша.
Мені особливо сподобалася сама схема: маленькі локальні агенти роблять швидкі речі в пам'яті, а зверху сидить повільніший, але розумніший мозок, який підключається лише тоді, коли потрібен складний вибір. Це вже схоже не на іграшку, а на нормальну архітектуру ШІ.
Вплив на бізнес та автоматизацію
Такий сетап не вбиває API. Але в задачах, де немає інтернету, є вимоги до приватності або важлива автономність на рівні пристрою, локальна автоматизація зі ШІ раптом починає виглядати дуже практично.
Хто виграє: промислові сенсори, польові пристрої, агроавтоматика, лабораторні стенди, будь-які edge-сценарії з рідкісними, але дорогими за змістом рішеннями. Хто програє: чат-інтерфейси з постійним діалогом і все, де потрібна швидка генерація в реальному часі.
Я б ще додав важливий момент щодо вартості. Іноді вигідніше тримати на місці повільний локальний мозок і надсилати назовні лише події, ніж постійно платити за API і залежати від мережі, SLA та політики провайдера.
Але це не той випадок, коли можна зліпити демо за вечір і вважати, що готово. Тут потрібно акуратно збирати оркестрацію, пам'ять, сценарії деградації, енергоспоживання та fallback-логіку. Ми в Nahornyi AI Lab якраз такі речі й збираємо для клієнтів: якщо у вас назріває пристрій або процес, де потрібна автономна інтеграція штучного інтелекту без постійного зв'язку з хмарою, я б на вашому місці вже перевірив, чи можна віддати це в гібридну схему разом із Vadym Nahornyi, поки конкуренти все ще сперечаються, чи вистачить 2 токенів за секунду.