DeepSeek 4 Flash q2 на M5: що показав локальний запуск

З'явився практичний досвід запуску DeepSeek 4 Flash q2 на MacBook M5 зі 128 ГБ RAM: близько 30 tok/s, модель використовує до 80 ГБ пам'яті, а tool calling іноді ламає теги. Для локального впровадження ШІ це вже не теорія, а чіткий орієнтир щодо заліза та обмежень.

Технічний контекст

Я люблю такі новини не за хайп, а за те, що вони швидко повертають впровадження ШІ на землю. Тут все просто: DeepSeek 4 Flash q2 вже запускають локально на M5 MacBook зі 128 ГБ RAM, і наживо виходить близько 30 tok/s.

Для локального сценарію одного користувача це вже не іграшка. Особливо якщо ви дивитеся в бік AI-автоматизації без хмари, з приватними даними та передбачуваною затримкою.

З того, що мене справді вразило: сама модель DeepSeek займає десь до 80 ГБ пам'яті. Решту доїдають сусідні процеси, на кшталт Claude Code, Codex та інших інструментів, які легко відкушують ще приблизно 35 ГБ.

Тобто історія не лише про модель, а про весь робочий стек навколо неї. На папері у вас 128 ГБ, а за фактом запас тане дуже швидко, якщо ви не тримаєте машину майже виділеною під інференс.

Ще один живий нюанс: tool calling працює не ідеально, і модель іноді забуває закривати теги. Я такі речі вважаю не косметикою, а інженерною деталлю, бо саме на них ламаються агентні пайплайни та автоматичні ланцюжки дій.

Хороша новина в тому, що це виглядає як проблема, яку можна виправити на рівні обгортки, валідації та постобробки. Погана в тому, що з коробки на це не можна сліпо покладатися, якщо ваша продакшн-логіка зав'язана на строгий формат.

Що це змінює для бізнесу та автоматизації

Я бачу тут три практичні висновки. Перший: локальне розгортання великих моделей на Apple Silicon вже реально обговорювати не як експеримент, а як робочу інтеграцію ШІ для команд, яким важливі приватність і контроль.

Другий: поріг по залізу нікуди не подівся. Якщо у вас немає 128 ГБ і дисципліни щодо фонових процесів, красива ідея швидко перетворюється на боротьбу за пам'ять і нестабільний UX.

Третій: виграють ті, кому потрібен локальний кодовий асистент, внутрішній агент або закрита обробка документів. Програють ті, хто очікує хмарної швидкості та ідеального tool use без додаткової інженерії.

Ми в Nahornyi AI Lab якраз розбираємо такі кейси руками: де локальна модель справді вигідніша за API, як зібрати архітектуру ШІ без зайвих витрат і чим страхувати tool calling, щоб автоматизація не розсипалася на дрібницях. Якщо у вас назрів локальний контур AI-автоматизації, можна спокійно подивитися на ваш стек і зібрати рішення без ворожіння на форумах.

Окрім оптимізації конкретних моделей, як-от DeepSeek, для локального обладнання, розуміння різних реалізацій локальних асистентів є вирішальним для практичного застосування. Раніше ми розглядали Rust LocalGPT, який пропонує локального асистента у вигляді єдиного бінарного файлу з постійною пам'яттю та HTTP API, демонструючи інший підхід до практичної реалізації ШІ без зайвих навантажень.

Поділитися статтею

Twitter/X LinkedIn Telegram

DeepSeek 4 Flash q2 на M5: що показав локальний запуск

Технічний контекст

Що це змінює для бізнесу та автоматизації

Ще новини

Qwen 3.6 27B і 51 tok/s: це вже схоже на справу

Gemma 4 26B на MLX прискорилася до 115 токенів/с