M5 Max делает локальные 120B LLM ближе к реальной экономике

Появились первые тесты M5 Max с локальными моделями класса 120B+. Скорость prefill достигает 1325 токенов в секунду, а генерация — 88. Для бизнеса это означает, что работа с большими контекстами становится быстрее, дешевле и безопаснее, позволяя внедрять мощные ИИ-решения без обязательной привязки к дорогой облачной инфраструктуре.

Технический контекст: я смотрю не на хайп, а на профиль нагрузки

Я внимательно разобрал первые реальные замеры на M5 Max, которые опубликовали пользователи LocalLLaMA, и для меня главный сигнал не в абстрактной «мощности», а в том, как ведут себя тяжелые модели на 4K prompt. Qwen3.5-122B-A10B-4bit показал 881.5 tok/s prefill и 65.9 tok/s decode при пике 71.9 GB. GPT-OSS-120B-MXFP4-Q8 выглядит еще интереснее: 1325.1 tok/s prefill, 87.9 tok/s decode и 64.4 GB peak.

Я отдельно отмечаю не только decode, который обычно любят цитировать, но именно prefill. Для архитектуры ИИ-решений это часто более важный параметр, потому что он определяет, насколько быстро система «проглатывает» длинный контекст: документы, переписку, базы знаний, историю задач, кодовые репозитории. Если prefill высокий, я могу проектировать локальные сценарии, где длинный prompt больше не убивает UX.

Третий замер тоже показателен: Qwen3.5-27B-Claude-4.6-Opus-Distilled-MLX-6bit выдает 811.1 tok/s prefill, но decode падает до 23.6 tok/s. Это напоминает простую вещь, которую я регулярно объясняю клиентам: одна и та же платформа может быть отличной для аналитики по длинному контексту и средней для диалогового режима с высокой интерактивностью. Железо само по себе не решает задачу — решает связка модели, квантизации, runtime и бизнес-сценария.

Влияние на бизнес и автоматизацию: локальный контур стал заметно серьезнее

Я вижу здесь прямой сдвиг для компаний, которые раньше смотрели на локальные LLM как на дорогую игрушку. Когда 120B-класс укладывается примерно в 64-72 GB unified memory и дает вменяемую скорость, я уже могу проектировать не демонстрацию, а рабочий контур: приватный поиск по документам, ассистента для юридических файлов, анализ инцидентов, AI-архитектуру для инженерной поддержки без вывода данных наружу.

Выигрывают те, у кого дорогая облачная инференс-экономика, чувствительные данные и длинные контексты. Проигрывают поставщики решений, которые продавали только облачный маршрут как единственно возможный. Для части задач внедрение искусственного интеллекта теперь можно делать на ноутбуке топ-класса, а не сразу на серверном кластере.

Но я бы не продавал эту новость как «NVIDIA больше не нужна». Для устойчивой продакшн-нагрузки, параллельных пользователей и предсказуемой SLA локальный MacBook все еще не замена полноценной инфраструктуре. В нашем опыте в Nahornyi AI Lab такие машины я рассматриваю как сильный edge-узел, executive workstation или приватный пилотный контур, а не как универсальный backend для всей компании.

Именно здесь начинается настоящая ИИ автоматизация, а не набор тестов из Reddit. Нужно правильно подобрать квантизацию, ограничить длину контекста, настроить MLX или llama.cpp, продумать кеширование, RAG, маршрутизацию запросов и fallback в облако. Без этого даже впечатляющие бенчмарки не превращаются в ИИ решения для бизнеса.

Стратегический взгляд: я вижу не гонку токенов, а перестройку архитектуры

Самый недооцененный вывод из этих тестов — дорогим становится не только вычисление, но и плохая архитектура. Когда prefill уходит далеко вверх, я могу переносить часть логики ближе к пользователю: локальный разбор документа перед отправкой в центральный контур, приватное извлечение фактов, предварительную классификацию, офлайн-черновики ответов. Это меняет экономику интеграции искусственного интеллекта на уровне процессов.

В проектах Nahornyi AI Lab я уже вижу повторяющийся паттерн: компаниям не нужен «самый умный» LLM в вакууме. Им нужен предсказуемый стек, где локальная модель быстро обрабатывает массив контекста, а дорогая облачная модель подключается только на узких участках — для сложного reasoning, финального контроля или генерации критичных документов. M5 Max усиливает именно такой гибридный дизайн.

Мой прогноз простой. В 2026 году рынок будет меньше спорить о том, можно ли запускать большие модели локально, и больше считать TCO: сколько стоит приватный inference, где граница окупаемости, когда выгоднее сделать ИИ интеграцию на Apple Silicon, а когда идти в серверную GPU-инфраструктуру. Победят не те, у кого выше токены в секунду на скриншоте, а те, кто умеет собрать архитектуру ИИ-решений под конкретную операционную модель бизнеса.

Этот разбор подготовил Вадим Нагорный — ключевой эксперт Nahornyi AI Lab по AI-архитектуре, внедрению ИИ и автоматизации с помощью ИИ для реального бизнеса. Если вы хотите понять, где в вашей компании локальные LLM уже экономически оправданы, а где нужен гибридный контур, я приглашаю вас обсудить проект со мной и командой Nahornyi AI Lab.

Поделиться статьёй

Twitter/X LinkedIn Telegram

M5 Max делает локальные 120B LLM ближе к реальной экономике

Технический контекст: я смотрю не на хайп, а на профиль нагрузки

Влияние на бизнес и автоматизацию: локальный контур стал заметно серьезнее

Стратегический взгляд: я вижу не гонку токенов, а перестройку архитектуры

Ещё новости

Warp открыл код и сделал терминал интереснее

Вежливость в промптах уже не всегда помогает