Я тоже недооценил прогресс AI-агентов

Ajeya Cotra пересмотрела свои прогнозы по возможностям ИИ после новых результатов METR: агенты тянут заметно более длинные задачи, чем ожидалось. Для бизнеса это важно, потому что AI automation уже можно проектировать на часы и местами на сутки, но не на безошибочную неделю.

Технический контекст

Я люблю такие тексты не за хайп, а за момент, где человек честно говорит: окей, я занизил темп прогресса. Именно это произошло в посте Ajeya Cotra от 5 марта 2026 года. Она пересмотрела взгляд на то, сколько автономной работы реально тянут современные агенты, и для AI implementation это уже не философия, а вопрос архитектуры.

Я покопался в цифрах, и вот что меня зацепило. Раньше ориентир был примерно такой: топовая модель уровня Claude Opus 4.5 держит около 5 часов «временного горизонта» на инженерных задачах METR, то есть решает около половины задач, которые у сильного человека заняли бы 5 часов.

Новый сдвиг оказался неприятно большим для всех, кто строил консервативные прогнозы. По данным, на которые ссылается Cotra, Opus 4.6 уже проходил 14 из 19 задач длиннее 8 часов, а доверительный интервал горизонта вообще расползся до 5.3-66 часов. Это не значит, что агент внезапно стал «надежным на трое суток». Это значит, что старые линейки измерения начали упираться в потолок.

И вот тут начинается самое интересное. Вне аккуратных бенчмарков агенты уже вытягивали многонедельные штуки вроде браузера, компилятора или крупных портов кода, но не в режиме zero-touch. Я это вижу и по полевым кейсам: чем лучше спецификация и уже контурированы инструменты, тем дальше агент идет без вмешательства; чем больше открытых концов, тем быстрее ловит drift, петли и тупые ошибки накопления.

Что это меняет для бизнеса и автоматизации

Первое: я бы уже не проектировал AI automation как «чатик рядом с сотрудником». Для части процессов разумнее строить длинные ранбуки на часы, с контрольными точками, откатами и верификацией артефактов.

Второе: выигрывают команды, у которых задачи хорошо формализованы. Проигрывают те, кто пытается с ходу отдать агенту хаотичный прод, мутные требования и ждать магии без AI integration в нормальный стек логов, тестов и прав доступа.

Третье: цена ошибки теперь важнее цены токенов. Если агент работает 12 часов и в конце уезжает в неверное состояние, экономия легко превращается в дорогую отладку.

Мы в Nahornyi AI Lab решаем именно этот неприятный слой: где агенту дать автономность, где поставить страховку, а где вообще не пускать его без человека. Если у вас процессы уже упираются в ручные проверки и медленные инженерные циклы, я с Vadym Nahornyi могу помочь собрать AI automation так, чтобы она реально снимала нагрузку с команды, а не производила красиво оформленный хаос.

Ранее мы обсуждали назревающий «кризис низкокачественного кода», когда чрезмерная зависимость от ИИ в разработке может снизить качество кода и увеличить совокупную стоимость владения. Это служит ярким напоминанием о непредсказуемых вызовах, которые иногда возникают при интеграции ИИ в устоявшиеся рабочие процессы.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Я тоже недооценил прогресс AI-агентов

Технический контекст

Что это меняет для бизнеса и автоматизации

Ещё новости

Gemma 4 ускоряет вывод через multi-token prediction

Codex вырвался вперед после обновления