Технический контекст
Я люблю такие тексты не за хайп, а за момент, где человек честно говорит: окей, я занизил темп прогресса. Именно это произошло в посте Ajeya Cotra от 5 марта 2026 года. Она пересмотрела взгляд на то, сколько автономной работы реально тянут современные агенты, и для AI implementation это уже не философия, а вопрос архитектуры.
Я покопался в цифрах, и вот что меня зацепило. Раньше ориентир был примерно такой: топовая модель уровня Claude Opus 4.5 держит около 5 часов «временного горизонта» на инженерных задачах METR, то есть решает около половины задач, которые у сильного человека заняли бы 5 часов.
Новый сдвиг оказался неприятно большим для всех, кто строил консервативные прогнозы. По данным, на которые ссылается Cotra, Opus 4.6 уже проходил 14 из 19 задач длиннее 8 часов, а доверительный интервал горизонта вообще расползся до 5.3-66 часов. Это не значит, что агент внезапно стал «надежным на трое суток». Это значит, что старые линейки измерения начали упираться в потолок.
И вот тут начинается самое интересное. Вне аккуратных бенчмарков агенты уже вытягивали многонедельные штуки вроде браузера, компилятора или крупных портов кода, но не в режиме zero-touch. Я это вижу и по полевым кейсам: чем лучше спецификация и уже контурированы инструменты, тем дальше агент идет без вмешательства; чем больше открытых концов, тем быстрее ловит drift, петли и тупые ошибки накопления.
Что это меняет для бизнеса и автоматизации
Первое: я бы уже не проектировал AI automation как «чатик рядом с сотрудником». Для части процессов разумнее строить длинные ранбуки на часы, с контрольными точками, откатами и верификацией артефактов.
Второе: выигрывают команды, у которых задачи хорошо формализованы. Проигрывают те, кто пытается с ходу отдать агенту хаотичный прод, мутные требования и ждать магии без AI integration в нормальный стек логов, тестов и прав доступа.
Третье: цена ошибки теперь важнее цены токенов. Если агент работает 12 часов и в конце уезжает в неверное состояние, экономия легко превращается в дорогую отладку.
Мы в Nahornyi AI Lab решаем именно этот неприятный слой: где агенту дать автономность, где поставить страховку, а где вообще не пускать его без человека. Если у вас процессы уже упираются в ручные проверки и медленные инженерные циклы, я с Vadym Nahornyi могу помочь собрать AI automation так, чтобы она реально снимала нагрузку с команды, а не производила красиво оформленный хаос.