Технический контекст
Я зацепился за этот разбор не из-за очередной битвы моделей, а из-за экономики. Люди прогнали разные SDD-методологии на простом проекте из пяти эндпоинтов через Claude Code и получили очень взрослый вывод: качество результата примерно сходится, а стоимость может разъехаться в пять раз. Для AI automation это почти главный сигнал года.
Мне тут особенно нравится смещение фокуса. Не «какая модель умнее на бенчмарке», а «какая самая дешёвая модель или агент могут имплементировать спеку без ошибок». Вот это уже инженерный вопрос, а не фетиш по SOTA.
Из обсуждения видно, что тестировали не абстрактные идеи, а вполне прикладные режимы работы: кастомные скиллы для спецификации, планирования, однофазной реализации, review с pushback. Runner по умолчанию крутится на Claude reasoning medium плюс Opus. Дальше хотят прогнать те же сценарии на Codex Max, и это логичный следующий шаг.
Самый жёсткий инсайт я бы сформулировал так: если вам уже нужен spec-kit, claude-plan и ещё пачка сложных костылей, чтобы задача поехала, то проблема не в модели. Проблема в том, что система слишком большая, плохо декомпозирована или спецификация написана так, что её тяжело исполнять даже хорошему агенту.
И вот тут я прямо киваю, потому что в реальных AI solutions for business я вижу то же самое. Когда спека чистая, ограниченная и проверяемая, даже модель послабее часто доезжает до результата без драм. Когда спека мутная, дорогой агент просто дороже ошибается.
Что это меняет для бизнеса и автоматизации
Для бизнеса вывод почти неприлично практичный. Бюджет на artificial intelligence implementation теперь имеет смысл тратить не только на модели, а на дисциплину спецификаций, интерфейсы, критерии приёмки и нормальную декомпозицию. Это скучнее, чем покупать новый Opus, но окупается лучше.
Выигрывают команды, которые умеют описывать систему как набор маленьких, проверяемых контрактов. Проигрывают те, кто пытается лечить архитектурный хаос более дорогим inference.
Я бы ещё добавил важный слой. Если качество действительно выравнивается между методологиями, то рынок постепенно смещается от «кто дал модель мощнее» к «кто выстроил процесс так, чтобы любую задачу можно было отдать более дешёвому исполнителю». Это уже не просто разработка, это AI integration как операционная система компании.
Отсюда и интерес к идее «машины Гёделя-Дарвина» для масштабирования гипотез внутри организации. Звучит громко, но суть приземлённая: вы гоняете варианты спек, агентов и пайплайнов как эволюционные гипотезы, а потом смотрите на метрики времени, стоимости и качества. Не спорите о вкусах, а отбираете выжившее.
Я бы не делал из этого универсальную истину, потому что кейс маленький: пять эндпоинтов это не монолит, не легаси-ERP и не messy enterprise backend. Но как сигнал направления он сильный. Если на простом проекте цена гуляет в 5 раз без заметной разницы по качеству, на потоке задач экономический эффект может стать очень жирным.
Мы как раз такие узкие места и разбираем у клиентов в Nahornyi AI Lab. Не «какую модель купить», а где у вас ломается декомпозиция, как переписать спецификации под надёжное исполнение и где build AI automation действительно даст экономию, а не красивое демо. Если чувствуете, что команда уже переплачивает за хаос в процессах, можно спокойно сесть и разложить это в рабочую AI architecture без магии и лишних токенов.