Технический контекст
Я люблю такие работы за приземлённость: не абстрактный бенчмарк, а 90 независимых прогонов одного и того же задания. Агенты строили real-time retrospective board по одной спецификации, а результат оценивали по 14 критериям с потолком 42 балла плюс визуальное ревью.
Для меня тут важен не сам UI, а вывод для AI implementation. Авторы проверяли, что реально повышает надёжность с первой попытки: класс модели, усилие рассуждения, доступ к testing tools и дизайн-ориентированный промпт.
Самый сильный сигнал: reasoning effort победил очень жёстко. При переходе с High на xHigh доля идеальных прогонов с первой попытки выросла с 28% до 89%, а число корректирующих промптов упало примерно в пять раз. И вот это уже не косметика, а смена режима работы.
А теперь момент, где я бы на месте многих команд остановился. Инструменты тестирования не дали прироста по функциональной надёжности, даже там, где казалось бы должны были что-то поймать, зато подняли стоимость на 42-68%.
Уровень модели тоже оказался доминирующим фактором. Frontier-модели шли почти в потолок, а более слабая локальная модель заметно проседала. Дизайн-промпт улучшал визуальную часть, но не функциональность, и это очень похоже на реальную жизнь: красивее не значит надёжнее.
Что это меняет для бизнеса и автоматизации
Если я проектирую AI architecture для кодового агента, я теперь ещё осторожнее отношусь к идее «накидаем побольше тулов и оно само станет надёжнее». Нет, сначала нужно купить мышление модели, а уже потом обвешивать её инструментами.
Вторая практическая вещь: дешёвый агент с кучей проверок может оказаться дороже и слабее, чем более сильная модель с высоким reasoning budget. Для AI automation это неприятная, но полезная математика.
Выигрывают команды, которые считают не только цену токена, а цену успешного первого прогона. Проигрывают те, кто путает сложность оркестрации с качеством результата.
Мы в Nahornyi AI Lab как раз решаем такие штуки на практике: где нужен сильный reasoning, где хватит простого пайплайна, а где tools вообще только раздувают счёт. Если у вас AI integration в разработке уже ест бюджет, но не даёт предсказуемого результата, давайте разберу ваш сценарий и предложу AI solution development без лишней агентной магии.