Технічний контекст
Мені подобаються такі роботи за їхню приземленість: не абстрактний бенчмарк, а 90 незалежних прогонів одного завдання. Агенти будували real-time retrospective board за однією специфікацією, а результат оцінювали за 14 критеріями з максимумом 42 бали плюс візуальний огляд.
Для мене тут важливий не сам UI, а висновок для AI імплементації. Автори перевіряли, що реально підвищує надійність з першої спроби: клас моделі, зусилля міркування, доступ до testing tools та дизайн-орієнтований промпт.
Найсильніший сигнал: reasoning effort переміг дуже жорстко. При переході з High на xHigh частка ідеальних прогонів з першої спроби зросла з 28% до 89%, а кількість коригувальних промптів впала приблизно в п'ять разів. І це вже не косметика, а зміна режиму роботи.
А тепер момент, де я б на місці багатьох команд зупинився. Інструменти тестування не дали приросту функціональної надійності, навіть там, де, здавалося б, мали щось зловити, зате підняли вартість на 42-68%.
Рівень моделі також виявився домінуючим фактором. Frontier-моделі працювали майже на стелі, а слабша локальна модель помітно просідала. Дизайн-промпт покращував візуальну частину, але не функціональність, і це дуже схоже на реальне життя: красивіше не означає надійніше.
Що це змінює для бізнесу та автоматизації
Якщо я проєктую AI архітектуру для кодового агента, я тепер ще обережніше ставлюся до ідеї «накидаємо більше тулів і воно само стане надійнішим». Ні, спочатку потрібно купити мислення моделі, а вже потім обвішувати її інструментами.
Друга практична річ: дешевий агент із купою перевірок може виявитися дорожчим і слабшим, ніж потужніша модель із великим reasoning budget. Для AI автоматизації це неприємна, але корисна математика.
Виграють команди, які враховують не лише ціну токена, а вартість успішного першого прогону. Програють ті, хто плутає складність оркестрації з якістю результату.
Ми в Nahornyi AI Lab саме вирішуємо такі речі на практиці: де потрібен сильний reasoning, де вистачить простого пайплайну, а де тули взагалі лише роздувають рахунок. Якщо ваша AI інтеграція в розробку вже споживає бюджет, але не дає передбачуваного результату, дозвольте проаналізувати ваш сценарій та запропонувати AI solution development без зайвої агентної магії.