Технічний контекст
Я люблю такі тексти не за хайп, а за момент, де людина чесно каже: окей, я занизив темп прогресу. Саме це сталося в дописі Ajeya Cotra від 5 березня 2026 року. Вона переглянула погляд на те, скільки автономної роботи реально витягують сучасні агенти, і для AI implementation це вже не філософія, а питання архітектури.
Я заглибився в цифри, і ось що мене зачепило. Раніше орієнтир був приблизно таким: топова модель рівня Claude Opus 4.5 тримає близько 5 годин «часового горизонту» на інженерних задачах METR, тобто вирішує близько половини завдань, які у сильного фахівця зайняли б 5 годин.
Новий зсув виявився неприємно великим для всіх, хто будував консервативні прогнози. За даними, на які посилається Cotra, Opus 4.6 вже проходив 14 з 19 завдань, довших за 8 годин, а довірчий інтервал горизонту взагалі розповзся до 5.3-66 годин. Це не означає, що агент раптово став «надійним на три доби». Це означає, що старі лінійки вимірювання почали впиратися в стелю.
І ось тут починається найцікавіше. Поза акуратними бенчмарками агенти вже витягували кількатижневі проєкти, як-от браузер, компілятор чи великі порти коду, але не в режимі zero-touch. Я це бачу і по польових кейсах: що краща специфікація та вужче контуровані інструменти, то далі агент іде без втручання; що більше відкритих кінців, то швидше ловить дрифт, цикли та тупі помилки накопичення.
Що це змінює для бізнесу та автоматизації
Перше: я б уже не проєктував AI automation як «чатик поруч зі співробітником». Для частини процесів розумніше будувати довгі ранбуки на години, з контрольними точками, відкатами та верифікацією артефактів.
Друге: виграють команди, у яких завдання добре формалізовані. Програють ті, хто намагається з ходу віддати агенту хаотичний прод, нечіткі вимоги та чекати на магію без AI integration у нормальний стек логів, тестів та прав доступу.
Третє: ціна помилки тепер важливіша за ціну токенів. Якщо агент працює 12 годин і наприкінці переходить у невірний стан, економія легко перетворюється на дороге налагодження.
Ми в Nahornyi AI Lab вирішуємо саме цей неприємний шар: де агенту дати автономність, де поставити страховку, а де взагалі не пускати його без людини. Якщо ваші процеси вже впираються в ручні перевірки та повільні інженерні цикли, я з Vadym Nahornyi можу допомогти зібрати AI automation так, щоб вона реально знімала навантаження з команди, а не виробляла красиво оформлений хаос.