Технічний контекст
Я люблю такі новини не за вау-ефект, а за зміну правил гри. Якщо MoE-модель рівня 1.5T можна тягнути локально через SSD-стрімінг, то розмова про AI implementation різко переходить від «потрібен сервер за космос» до «потрібна нормальна архітектура пайплайну».
Суть тут проста: в MoE на кожному токені працюють не всі параметри, а тільки вибрані експерти. Значить, мені не потрібно тримати всю вагу моделі в RAM. Я можу зберігати експертів на SSD, підвантажувати потрібні частини в процесі інференсу та жити з 6-7 ГБ зайнятої пам'яті замість шалених обсягів ОЗП.
У ході обговорення виплив практичний стек: Apple Silicon, 4-бітна квантизація, рушій на кшталт flash-moe та модель класу Qwen3.5-397B-A17B як близький приклад. Це не підтвердження того, що «DeepSeek 4 Pro літає на макбуці», а демонстрація самого принципу: обсяг пам'яті більше не є головним стоп-фактором, пляшкове горлечко перемістилося в SSD bandwidth та латентність.
Ось де я б одразу охолодив очікування. Для інтерактивного чату це поки компромісна історія: токени йтимуть нерівномірно, а швидкий SSD важливіший за зайві гігабайти RAM. Але для неінтерактивних завдань картина вже інша. Раз на день обробити пачку документів, вночі оновити класифікацію, цілодобово тримати локального агента на фоновій обробці — це вже не звучить як інженерний жарт.
Окремо сподобалася думка про дешевий Mac mini або навіть зовсім скромний пристрій із великим SSD. Так, повільно. Але якщо завдання не потребує діалогу в реальному часі, модель може спокійно «шурхотіти» годинами без дорогого GPU-хостингу.
Вплив на бізнес та автоматизацію
Для бізнесу я бачу тут три прямі ефекти. Перший: частину AI automation можна перевести в локальний контур, де критичні приватність та передбачувана вартість. Другий: знижується поріг входу для пілотів, оскільки перевіряти гіпотези можна без оренди важкої інфраструктури. Третій: архітектура AI integration змінюється, я можу проектувати фонових агентів під SSD-first execution, а не під максимум VRAM.
Хто виграє? Команди з batch-завданнями, внутрішньою аналітикою, документними пайплайнами та чутливими даними. Хто програє? Ті, кому потрібен швидкий діалоговий UX тут і зараз: там без потужного заліза чи хмари поки нікуди.
Я б не продавав це як заміну серверному інференсу. Я б продавав це як новий клас локальних систем, де ціна, приватність та автономність важливіші за швидкість. Ми в Nahornyi AI Lab саме такі штуки й збираємо для клієнтів: якщо у вас назріває завдання на локальну AI automation або потрібен кастомний AI-агент, давайте розберу ваш процес і скажу честно, де SSD-стрімінг дасть економію, а де лише додасть болю.