DeepSeek на ноуті: SSD замість купи RAM

З'явився новий робочий сценарій локального запуску гігантських MoE-моделей на кшталт DeepSeek за допомогою SSD-стрімінгу експертів та з мінімальною RAM. Для бізнесу це важливо не швидкістю роботи, а тим, що автоматизацію та локальних фонових AI-агентів тепер можна розгортати безкоштовно на найдешевшому залізі.

Технічний контекст

Я люблю такі новини не за вау-ефект, а за зміну правил гри. Якщо MoE-модель рівня 1.5T можна тягнути локально через SSD-стрімінг, то розмова про AI implementation різко переходить від «потрібен сервер за космос» до «потрібна нормальна архітектура пайплайну».

Суть тут проста: в MoE на кожному токені працюють не всі параметри, а тільки вибрані експерти. Значить, мені не потрібно тримати всю вагу моделі в RAM. Я можу зберігати експертів на SSD, підвантажувати потрібні частини в процесі інференсу та жити з 6-7 ГБ зайнятої пам'яті замість шалених обсягів ОЗП.

У ході обговорення виплив практичний стек: Apple Silicon, 4-бітна квантизація, рушій на кшталт flash-moe та модель класу Qwen3.5-397B-A17B як близький приклад. Це не підтвердження того, що «DeepSeek 4 Pro літає на макбуці», а демонстрація самого принципу: обсяг пам'яті більше не є головним стоп-фактором, пляшкове горлечко перемістилося в SSD bandwidth та латентність.

Ось де я б одразу охолодив очікування. Для інтерактивного чату це поки компромісна історія: токени йтимуть нерівномірно, а швидкий SSD важливіший за зайві гігабайти RAM. Але для неінтерактивних завдань картина вже інша. Раз на день обробити пачку документів, вночі оновити класифікацію, цілодобово тримати локального агента на фоновій обробці — це вже не звучить як інженерний жарт.

Окремо сподобалася думка про дешевий Mac mini або навіть зовсім скромний пристрій із великим SSD. Так, повільно. Але якщо завдання не потребує діалогу в реальному часі, модель може спокійно «шурхотіти» годинами без дорогого GPU-хостингу.

Вплив на бізнес та автоматизацію

Для бізнесу я бачу тут три прямі ефекти. Перший: частину AI automation можна перевести в локальний контур, де критичні приватність та передбачувана вартість. Другий: знижується поріг входу для пілотів, оскільки перевіряти гіпотези можна без оренди важкої інфраструктури. Третій: архітектура AI integration змінюється, я можу проектувати фонових агентів під SSD-first execution, а не під максимум VRAM.

Хто виграє? Команди з batch-завданнями, внутрішньою аналітикою, документними пайплайнами та чутливими даними. Хто програє? Ті, кому потрібен швидкий діалоговий UX тут і зараз: там без потужного заліза чи хмари поки нікуди.

Я б не продавав це як заміну серверному інференсу. Я б продавав це як новий клас локальних систем, де ціна, приватність та автономність важливіші за швидкість. Ми в Nahornyi AI Lab саме такі штуки й збираємо для клієнтів: якщо у вас назріває завдання на локальну AI automation або потрібен кастомний AI-агент, давайте розберу ваш процес і скажу честно, де SSD-стрімінг дасть економію, а де лише додасть болю.

Раніше ми детально розбирали технічні нюанси та міфи навколо запуску нейромереж на Raspberry Pi на прикладі проєкту Codex. Цей аналіз чудово доповнює тему апаратних обмежень мікрокомп'ютерів і показує, як продумана архітектура відрізняє робочі рішення від простих демо-версій.

Поділитися статтею

Twitter/X LinkedIn Telegram

DeepSeek на ноуті: SSD замість купи RAM

Технічний контекст

Вплив на бізнес та автоматизацію

Ще новини

Seedance 2 і «фільм Бломкампа»: що тут правда

Jira + агентний воркфлоу: реальність HITL