M5 Max робить локальні 120B LLM ближчими до реальної економіки

Перші тести M5 Max із локальними моделями класу 120B+ показують надзвичайні результати. Швидкість prefill сягає 1325 токенів за секунду, а генерації — 88. Для бізнесу це означає швидку, безпечну та економічну роботу з великими обсягами даних без обов'язкової прив'язки до хмарної інфраструктури під час впровадження штучного інтелекту.

Технічний контекст: я дивлюся не на хайп, а на профіль навантаження

Я уважно проаналізував перші реальні тести на M5 Max, які опублікували користувачі LocalLLaMA, і для мене головний сигнал не в абстрактній «потужності», а в тому, як поводяться важкі моделі на 4K prompt. Qwen3.5-122B-A10B-4bit показав 881.5 tok/s prefill і 65.9 tok/s decode при піку 71.9 GB. GPT-OSS-120B-MXFP4-Q8 виглядає ще цікавіше: 1325.1 tok/s prefill, 87.9 tok/s decode і 64.4 GB peak.

Я окремо відзначаю не тільки decode, який зазвичай люблять цитувати, але саме prefill. Для архітектури ШІ-рішень це часто більш важливий параметр, тому що він визначає, наскільки швидко система «проковтує» довгий контекст: документи, листування, бази знань, історію завдань, кодові репозиторії. Якщо prefill високий, я можу проектувати локальні сценарії, де довгий prompt більше не вбиває UX.

Третій замір теж показовий: Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit видає 811.1 tok/s prefill, але decode падає до 23.6 tok/s. Це нагадує просту річ, яку я регулярно пояснюю клієнтам: одна й та сама платформа може бути відмінною для аналітики за довгим контекстом і посередньою для діалогового режиму з високою інтерактивністю. Залізо само по собі не вирішує завдання — вирішує зв'язка моделі, квантизації, runtime та бізнес-сценарію.

Вплив на бізнес та автоматизацію: локальний контур став помітно серйознішим

Я бачу тут прямий зсув для компаній, які раніше дивилися на локальні LLM як на дорогу іграшку. Коли 120B-клас вкладається приблизно в 64-72 GB unified memory і дає адекватну швидкість, я вже можу проектувати не демонстрацію, а робочий контур: приватний пошук по документах, асистента для юридичних файлів, аналіз інцидентів, AI-архітектуру для інженерної підтримки без виведення даних назовні.

Виграють ті, у кого дорога хмарна інференс-економіка, чутливі дані та довгі контексти. Програють постачальники рішень, які продавали тільки хмарний маршрут як єдино можливий. Для частини завдань впровадження штучного інтелекту тепер можна робити на ноутбуці топ-класу, а не відразу на серверному кластері.

Але я б не продавав цю новину як «NVIDIA більше не потрібна». Для стійкого продакшн-навантаження, паралельних користувачів і передбачуваної SLA локальний MacBook все ще не заміна повноцінній інфраструктурі. У нашому досвіді в Nahornyi AI Lab такі машини я розглядаю як сильний edge-вузол, executive workstation або приватний пілотний контур, а не як універсальний backend для всієї компанії.

Саме тут починається справжня ШІ автоматизація, а не набір тестів з Reddit. Потрібно правильно підібрати квантизацію, обмежити довжину контексту, налаштувати MLX або llama.cpp, продумати кешування, RAG, маршрутизацію запитів і fallback у хмару. Без цього навіть вражаючі бенчмарки не перетворюються на ШІ рішення для бізнесу.

Стратегічний погляд: я бачу не гонку токенів, а розбудову архітектури

Найбільш недооцінений висновок із цих тестів — дорогою стає не тільки обчислення, а й погана архітектура. Коли prefill йде далеко вгору, я можу переносити частину логіки ближче до користувача: локальний розбір документа перед відправкою в центральний контур, приватне отримання фактів, попередню класифікацію, офлайн-чернетки відповідей. Це змінює економіку інтеграції штучного інтелекту на рівні процесів.

У проектах Nahornyi AI Lab я вже бачу повторюваний патерн: компаніям не потрібен «найрозумніший» LLM у вакуумі. Їм потрібен передбачуваний стек, де локальна модель швидко обробляє масив контексту, а дорога хмарна модель підключається тільки на вузьких ділянках — для складного reasoning, фінального контролю або генерації критичних документів. M5 Max посилює саме такий гібридний дизайн.

Мій прогноз простий. У 2026 році ринок буде менше сперечатися про те, чи можна запускати великі моделі локально, і більше рахувати TCO: скільки коштує приватний inference, де межа окупності, коли вигідніше зробити ШІ інтеграцію на Apple Silicon, а коли йти в серверну GPU-інфраструктуру. Переможуть не ті, у кого вищі токени в секунду на скріншоті, а ті, хто вміє зібрати архітектуру ШІ-рішень під конкретну операційну модель бізнесу.

Цей розбір підготував Вадим Нагорний — ключовий експерт Nahornyi AI Lab з AI-архітектури, впровадження ШІ та автоматизації за допомогою ШІ для реального бізнесу. Якщо ви хочете зрозуміти, де у вашій компанії локальні LLM вже економічно виправдані, а де потрібен гібридний контур, я запрошую вас обговорити проект зі мною та командою Nahornyi AI Lab.

Поділитися статтею

Twitter/X LinkedIn Telegram

M5 Max робить локальні 120B LLM ближчими до реальної економіки

Технічний контекст: я дивлюся не на хайп, а на профіль навантаження

Вплив на бізнес та автоматизацію: локальний контур став помітно серйознішим

Стратегічний погляд: я бачу не гонку токенів, а розбудову архітектури

Ще новини

Warp Відкрив Код і Зробив Термінал Цікавішим

Ввічливість у промптах уже не завжди допомагає