Я теж недооцінив прогрес AI-агентів

Ajeya Cotra переглянула свої прогнози щодо можливостей ШІ після нових результатів METR: агенти здатні виконувати значно довші завдання, ніж очікувалося. Для бізнесу це важливо, адже AI automation вже можна проєктувати на години, а подекуди й на добу, але ще не на безпомилковий тиждень роботи.

Технічний контекст

Я люблю такі тексти не за хайп, а за момент, де людина чесно каже: окей, я занизив темп прогресу. Саме це сталося в дописі Ajeya Cotra від 5 березня 2026 року. Вона переглянула погляд на те, скільки автономної роботи реально витягують сучасні агенти, і для AI implementation це вже не філософія, а питання архітектури.

Я заглибився в цифри, і ось що мене зачепило. Раніше орієнтир був приблизно таким: топова модель рівня Claude Opus 4.5 тримає близько 5 годин «часового горизонту» на інженерних задачах METR, тобто вирішує близько половини завдань, які у сильного фахівця зайняли б 5 годин.

Новий зсув виявився неприємно великим для всіх, хто будував консервативні прогнози. За даними, на які посилається Cotra, Opus 4.6 вже проходив 14 з 19 завдань, довших за 8 годин, а довірчий інтервал горизонту взагалі розповзся до 5.3-66 годин. Це не означає, що агент раптово став «надійним на три доби». Це означає, що старі лінійки вимірювання почали впиратися в стелю.

І ось тут починається найцікавіше. Поза акуратними бенчмарками агенти вже витягували кількатижневі проєкти, як-от браузер, компілятор чи великі порти коду, але не в режимі zero-touch. Я це бачу і по польових кейсах: що краща специфікація та вужче контуровані інструменти, то далі агент іде без втручання; що більше відкритих кінців, то швидше ловить дрифт, цикли та тупі помилки накопичення.

Що це змінює для бізнесу та автоматизації

Перше: я б уже не проєктував AI automation як «чатик поруч зі співробітником». Для частини процесів розумніше будувати довгі ранбуки на години, з контрольними точками, відкатами та верифікацією артефактів.

Друге: виграють команди, у яких завдання добре формалізовані. Програють ті, хто намагається з ходу віддати агенту хаотичний прод, нечіткі вимоги та чекати на магію без AI integration у нормальний стек логів, тестів та прав доступу.

Третє: ціна помилки тепер важливіша за ціну токенів. Якщо агент працює 12 годин і наприкінці переходить у невірний стан, економія легко перетворюється на дороге налагодження.

Ми в Nahornyi AI Lab вирішуємо саме цей неприємний шар: де агенту дати автономність, де поставити страховку, а де взагалі не пускати його без людини. Якщо ваші процеси вже впираються в ручні перевірки та повільні інженерні цикли, я з Vadym Nahornyi можу допомогти зібрати AI automation так, щоб вона реально знімала навантаження з команди, а не виробляла красиво оформлений хаос.

Раніше ми обговорювали виникнення «кризи неякісного коду», коли надмірна залежність від ШІ в розробці може погіршити якість коду та збільшити загальну вартість володіння. Це слугує яскравим нагадуванням про непередбачувані виклики, які іноді виникають при інтеграції ШІ у сталі галузеві процеси.

Поділитися статтею

Twitter/X LinkedIn Telegram

Я теж недооцінив прогрес AI-агентів

Технічний контекст

Що це змінює для бізнесу та автоматизації

Ще новини

Claude та MCP для pixel-perfect верстки

Сертифікація Claude стала фільтром у партнерці