Harness Engineering от OpenAI: надежность LLM через ограничения, диагностику и «планы как код»

OpenAI представила Harness Engineering — подход, где ИИ автономно пишет и тестирует код в жестких рамках. Это важно для бизнеса: надежность LLM-систем теперь обеспечивается не промптами, а инженерными инструментами — структурными тестами, диагностикой и версионированными планами действий.

Technical Context

Публикация OpenAI про Harness Engineering — не про «как писать код быстрее», а про то, как заставить агентную разработку быть воспроизводимой и управляемой. Смысл подхода: агент (Codex и аналогичные) работает не как автодополнение в IDE, а как исполнитель полного цикла — от пустого репозитория до PR и мержа — при этом система заранее ограничивает его свободу механическими правилами и дает машинно-читаемую наблюдаемость.

Agent-first workflow: агент автономно создает и развивает кодовую базу, запускает тесты, исправляет ошибки, оформляет PR, обрабатывает фидбек, повторяет цикл.
Depth-first декомпозиция: цель дробится на атомарные блоки (дизайн → реализация → ревью → тест), и агент проходит их итеративно; сбои трактуются как «нехватка возможностей», которую нужно сделать явной и исполнимой через инструменты.
Versioned plans: планы выполнения и логи решений фиксируются как артефакты в Git (а не остаются в чате). Это снижает зависимость от внешнего контекста и облегчает передачу состояния между агентами/запусками.
Жесткие архитектурные границы: слои, направления зависимостей и допустимые «ребра» между компонентами проверяются структурными тестами и кастомными линтерами, которые генерируются/поддерживаются агентом.
Legible diagnostics: диагностика проектируется так, чтобы ее мог интерпретировать агент: карты конкурентности, точные дампы состояния, извлечение схем/документации через retrieval, воспроизведение багов с видео и управлением приложением (app driving).
Garbage collection качества: непрерывное «собирание мусора» в агентно-сгенерированном коде — рефакторинг, зачистка деградаций, поддержание консистентности правил.

OpenAI также упоминает Codex Harness protocol как стандартизированную схему взаимодействия «агент ↔ инструменты» (JSON-RPC, рукопожатие и согласование возможностей). Для архитекторов это сигнал: зрелая агентная разработка требует формальных контрактов инструментов и предсказуемых ответов, а не набора разрозненных скриптов.

По заявлениям из материала, такой контур позволяет получать кратный прирост скорости (порядка 10x) и вести кодовую базу вплоть до масштаба «миллион строк» для ранних пользователей. Критично: это не магия модели, а инженерная оболочка, где тесты, ограничения и диагностика работают как страховочные тросы.

Business & Automation Impact

Harness Engineering меняет экономику разработки там, где LLM уже встроены в продукт или в процесс поставки софта. Главный сдвиг: выигрывают не команды с «лучшими промптами», а организации, которые умеют превращать качество и безопасность в механически проверяемые правила.

Кто выигрывает. Продуктовые компании с длинным хвостом мелких изменений (регрессии, совместимость, миграции), интеграторы, которые живут в CI/CD, и индустрии с высокой ценой ошибки (финансы, индустриальные системы, медтех). Там агент может закрывать рутину: воспроизведение дефектов, правки, тестирование, оформление изменений.

Кто проигрывает. Команды, где архитектура «плывет», границы модулей не зафиксированы, тестовый контур слабый, а наблюдаемость ограничена логами для человека. В таких условиях агент усиливает хаос: он может локально «чинить», но глобально размывает дизайн, пока стоимость поддержки не съест выигрыш по скорости.

Практический вывод для руководителя разработки или владельца продукта: перед тем как масштабировать ИИ автоматизацию в инженерии, придется инвестировать в три слоя:

Структурные ограничения: правила зависимостей, политики доступа к слоям, стандарты API, запреты на «короткие пути». Это то, что потом проверяется линтерами/тестами в CI.
Исполнимая диагностика: агенту нужны не абстрактные «вот стек-трейс», а минимально достаточные артефакты для действия: воспроизводимый сценарий, снимки состояния, схемы, контракты, точные ошибки сборки.
Версионирование намерений: планы, решения, результаты прогонов — как часть репозитория. Без этого агентные итерации превращаются в недетерминированный поток.

Если смотреть шире MLOps, здесь есть параллель: это тот же принцип, что и в надежном внедрении ИИ в процессы — любая «умность» должна быть обрамлена наблюдаемостью, оценкой качества и управляемыми интерфейсами. Harness-подход фактически переносит MLOps-мышление (evals, трассировка, контракты) в мир разработки ПО агентами.

Еще одна архитектурная развилка: где заканчивается автономия агента. OpenAI прямо показывает модель «агент делает почти всё, человек оставляет за собой judgment». В бизнесе это означает: юридически и операционно вам нужны понятные точки контроля (approval gates), иначе ускорение превращается в рост риска — от утечек секретов до незаметных функциональных изменений.

В результате роль архитекторов усиливается: вместо ручного контроля каждого коммита нужно проектировать архитектуру ИИ-решений вокруг цепочек инструментов, тестов, правил и прав доступа. Без этого «агенты в CI» останутся красивой демкой.

Expert Opinion Vadym Nahornyi

Непопулярная мысль: Harness Engineering — это не про «агенты заменят разработчиков», а про то, что исчезает ценность неформальной инженерной культуры. Раньше можно было полагаться на опыт сеньоров, код-ревью и «чутье» на архитектурный дрейф. С агентами такая тактика не масштабируется: если правило не формализовано и не проверяется автоматически, оно не существует.

В проектах Nahornyi AI Lab я регулярно вижу один и тот же паттерн, когда компании хотят «внедрить агента» для разработки или поддержки: начинают с выбора модели и интерфейса, а должны начинать с контуров ограничений. Быстрый пилот почти всегда удается; провал начинается на третьей-четвертой неделе, когда кодовая база наполняется «временными решениями», а CI не ловит архитектурные нарушения. Именно поэтому идея Codex-generated линтеров и структурных тестов мне кажется ключевой: агент может быть автором правил, но правила обязаны быть независимым судьей.

Вторая ошибка — пытаться сделать систему «красивой для людей» и одновременно автономной для агентов. OpenAI явно выбирает legibility: проектирование диагностик и состояния так, чтобы агент мог действовать. На практике это означает инвестиции в внутренние интерфейсы: форматы ошибок, схемы доменных объектов, инструменты воспроизведения. Это скучная работа, но она кратно снижает стоимость поддержки.

Прогноз на 12–18 месяцев: агентная разработка станет нормой для поддержки и инкрементальных изменений (bugfix, миграции, обновления зависимостей, автогенерация тестов). «Полная автономия» для новых продуктов будет реже, чем обещают, потому что узкое место — не код, а решения на уровне продукта, безопасности и ответственности. Победят те, кто строит агентам коридоры: ограничения, наблюдаемость, права и воспроизводимость, а не просто покупает доступ к лучшей модели.

Если вы хотите применить принципы Harness Engineering у себя — от агентного CI до автономного QA/bugfix — обсудим вашу ситуацию и ограничения домена. В Nahornyi AI Lab консультацию веду лично я, Vadym Nahornyi: разложим по шагам, где даст эффект автоматизация с помощью ИИ, а где она увеличит риск.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Harness Engineering от OpenAI: надежность LLM через ограничения, диагностику и «планы как код»

Technical Context

Business & Automation Impact

Expert Opinion Vadym Nahornyi

Ещё новости

LFM2.5-8B-A1B: что реально помогает от циклов

Твит Альтмана есть, а релиза пока не видно