Технічний контекст
Я люблю такі новини не за хайп, а за те, що вони швидко повертають впровадження ШІ на землю. Тут все просто: DeepSeek 4 Flash q2 вже запускають локально на M5 MacBook зі 128 ГБ RAM, і наживо виходить близько 30 tok/s.
Для локального сценарію одного користувача це вже не іграшка. Особливо якщо ви дивитеся в бік AI-автоматизації без хмари, з приватними даними та передбачуваною затримкою.
З того, що мене справді вразило: сама модель DeepSeek займає десь до 80 ГБ пам'яті. Решту доїдають сусідні процеси, на кшталт Claude Code, Codex та інших інструментів, які легко відкушують ще приблизно 35 ГБ.
Тобто історія не лише про модель, а про весь робочий стек навколо неї. На папері у вас 128 ГБ, а за фактом запас тане дуже швидко, якщо ви не тримаєте машину майже виділеною під інференс.
Ще один живий нюанс: tool calling працює не ідеально, і модель іноді забуває закривати теги. Я такі речі вважаю не косметикою, а інженерною деталлю, бо саме на них ламаються агентні пайплайни та автоматичні ланцюжки дій.
Хороша новина в тому, що це виглядає як проблема, яку можна виправити на рівні обгортки, валідації та постобробки. Погана в тому, що з коробки на це не можна сліпо покладатися, якщо ваша продакшн-логіка зав'язана на строгий формат.
Що це змінює для бізнесу та автоматизації
Я бачу тут три практичні висновки. Перший: локальне розгортання великих моделей на Apple Silicon вже реально обговорювати не як експеримент, а як робочу інтеграцію ШІ для команд, яким важливі приватність і контроль.
Другий: поріг по залізу нікуди не подівся. Якщо у вас немає 128 ГБ і дисципліни щодо фонових процесів, красива ідея швидко перетворюється на боротьбу за пам'ять і нестабільний UX.
Третій: виграють ті, кому потрібен локальний кодовий асистент, внутрішній агент або закрита обробка документів. Програють ті, хто очікує хмарної швидкості та ідеального tool use без додаткової інженерії.
Ми в Nahornyi AI Lab якраз розбираємо такі кейси руками: де локальна модель справді вигідніша за API, як зібрати архітектуру ШІ без зайвих витрат і чим страхувати tool calling, щоб автоматизація не розсипалася на дрібницях. Якщо у вас назрів локальний контур AI-автоматизації, можна спокійно подивитися на ваш стек і зібрати рішення без ворожіння на форумах.