Технический контекст
Я как раз люблю такие новости: все смотрят на цифры в бенчах, а я сразу думаю, во что это превратится при нормальной AI automation, когда модель надо не просто показать, а держать под нагрузкой. В этом кейсе обсуждают A40B как очень жирную модель, и тут у меня первый стоп-сигнал: локально на маковском железе интерактивная скорость почти наверняка будет больной темой.
Если модель реально около 40B класса, вопрос уже не в том, "запустится ли", а в том, сколько будет токенов в секунду, какая квантизация переживёт качество, и насколько всё это не развалится после пары длинных диалогов. Я такое уже видел не раз: на демо всё бодро, а потом начинается пляска с памятью, прогревом и внезапной просадкой latency.
И вот здесь меня больше всего цепляет не сам benchmark, а инфраструктурный хвост. Если у Zai_org облако до сих пор работает неровно, то даже сильная модель не спасает. Пользователю всё равно, какой у вас score, если ответ приходит с лагом, отваливается поток или API ведёт себя как лотерея.
На Mac история особенно приземлённая. Да, можно ужать модель, поиграть с offloading и выжать запуск. Но если речь об интерактиве, а не о ночной пакетной задаче, большая модель такого размера быстро упирается в компромисс: либо терпимая скорость, либо терпимое качество, либо вообще уходим в облако.
Влияние на бизнес и автоматизацию
Для бизнеса вывод простой: выигрывают те, кто не влюбляется в benchmark, а считает полный маршрут запроса. Если вам нужна automation with AI в саппорте, продажах или внутренних агентах, стабильность и цена ответа часто важнее, чем голая мощность модели.
Проигрывают команды, которые строят архитектуру по скриншотам из X. Потом выясняется, что локально дорого и медленно, а облако нестабильно. И вот уже весь pipeline надо перекраивать.
Мы в Nahornyi AI Lab как раз решаем такие штуки на практике: где оставить локальный inference, где вынести в облако, а где вообще не тащить 40B-монстра без причины. Если у вас назревает AI solution development и непонятно, тянуть ли большую модель в продукт, давайте разберём ваш сценарий по-честному и соберём архитектуру без дорогих иллюзий вместе с Vadym Nahornyi и Nahornyi AI Lab.