Технічний контекст
Я якраз люблю такі новини: всі дивляться на цифри в бенчах, а я одразу думаю, у що це перетвориться при нормальній AI automation, коли модель треба не просто показати, а тримати під навантаженням. У цьому кейсі обговорюють A40B як дуже жирну модель, і тут у мене перший стоп-сигнал: локально на маківському залізі інтерактивна швидкість майже напевно буде болючою темою.
Якщо модель реально близько 40B класу, питання вже не в тому, "чи запуститься", а скільки буде токенів за секунду, яка квантизація збереже якість, і наскільки все це не розвалиться після кількох довгих діалогів. Я таке вже бачив не раз: на демо все бадьоро, а потім починається танок з пам'яттю, прогрівом і раптовим падінням latency.
І от тут мене найбільше чіпляє не сам benchmark, а інфраструктурний хвіст. Якщо у Zai_org хмара досі працює нерівно, то навіть сильна модель не рятує. Користувачу все одно, який у вас score, якщо відповідь приходить із лагом, відвалюється потік або API поводиться як лотерея.
На Mac історія особливо приземлена. Так, можна стиснути модель, погратися з offloading і вичавити запуск. Але якщо мова про інтерактив, а не про нічне пакетне завдання, велика модель такого розміру швидко впирається у компроміс: або терпима швидкість, або терпима якість, або взагалі йдемо в хмару.
Вплив на бізнес та автоматизацію
Для бізнесу висновок простий: виграють ті, хто не закохується у benchmark, а рахує повний маршрут запиту. Якщо вам потрібна automation with AI у сапорті, продажах або внутрішніх агентах, стабільність і ціна відповіді часто важливіші, ніж гола потужність моделі.
Програють команди, які будують архітектуру за скріншотами з X. Потім виявляється, що локально дорого і повільно, а хмара нестабільна. І от уже весь pipeline треба перекроювати.
Ми в Nahornyi AI Lab якраз вирішуємо такі речі на практиці: де залишити локальний inference, де винести в хмару, а де взагалі не тягти 40B-монстра без причини. Якщо у вас назріває AI solution development і незрозуміло, чи тягнути велику модель у продукт, давайте розберемо ваш сценарій чесно і зберемо архітектуру без дорогих ілюзій разом із Vadym Nahornyi та Nahornyi AI Lab.