Міркування перемагає інструменти в AI-кодингу

Нове дослідження arXiv показує просту річ: для надійної агентної генерації коду важливіша потужність моделі та глибина міркувань, а не доступ до інструментів тестування. Для AI автоматизації це чіткий сигнал, куди спрямовувати бюджет і як проєктувати агентні пайплайни, щоб уникнути витрат на інструменти.

Технічний контекст

Мені подобаються такі роботи за їхню приземленість: не абстрактний бенчмарк, а 90 незалежних прогонів одного завдання. Агенти будували real-time retrospective board за однією специфікацією, а результат оцінювали за 14 критеріями з максимумом 42 бали плюс візуальний огляд.

Для мене тут важливий не сам UI, а висновок для AI імплементації. Автори перевіряли, що реально підвищує надійність з першої спроби: клас моделі, зусилля міркування, доступ до testing tools та дизайн-орієнтований промпт.

Найсильніший сигнал: reasoning effort переміг дуже жорстко. При переході з High на xHigh частка ідеальних прогонів з першої спроби зросла з 28% до 89%, а кількість коригувальних промптів впала приблизно в п'ять разів. І це вже не косметика, а зміна режиму роботи.

А тепер момент, де я б на місці багатьох команд зупинився. Інструменти тестування не дали приросту функціональної надійності, навіть там, де, здавалося б, мали щось зловити, зате підняли вартість на 42-68%.

Рівень моделі також виявився домінуючим фактором. Frontier-моделі працювали майже на стелі, а слабша локальна модель помітно просідала. Дизайн-промпт покращував візуальну частину, але не функціональність, і це дуже схоже на реальне життя: красивіше не означає надійніше.

Що це змінює для бізнесу та автоматизації

Якщо я проєктую AI архітектуру для кодового агента, я тепер ще обережніше ставлюся до ідеї «накидаємо більше тулів і воно само стане надійнішим». Ні, спочатку потрібно купити мислення моделі, а вже потім обвішувати її інструментами.

Друга практична річ: дешевий агент із купою перевірок може виявитися дорожчим і слабшим, ніж потужніша модель із великим reasoning budget. Для AI автоматизації це неприємна, але корисна математика.

Виграють команди, які враховують не лише ціну токена, а вартість успішного першого прогону. Програють ті, хто плутає складність оркестрації з якістю результату.

Ми в Nahornyi AI Lab саме вирішуємо такі речі на практиці: де потрібен сильний reasoning, де вистачить простого пайплайну, а де тули взагалі лише роздувають рахунок. Якщо ваша AI інтеграція в розробку вже споживає бюджет, але не дає передбачуваного результату, дозвольте проаналізувати ваш сценарій та запропонувати AI solution development без зайвої агентної магії.

Раніше ми розбирали кризу «субстандартного коду»: як використання ШІ в розробці погіршує якість і підвищує TCO. Ця тема безпосередньо пов'язана з сьогоднішнім розвінчанням міфу про всемогутніх агентів-кодерів.

Поділитися статтею

Twitter/X LinkedIn Telegram

Міркування перемагає інструменти в AI-кодингу

Технічний контекст

Що це змінює для бізнесу та автоматизації

Ще новини

Як я обмежую ШІ в Git

PieterPost MCP виводить AI-агентів в офлайн