Технический контекст
Я посмотрел на обсуждение Skills 2.0 и быстро увидел главное: новость не в том, что кто-то радикально переписал саму систему skills. Судя по доступным описаниям, акцент сместился в сторону evals внутри skill-creator — то есть в механизм, где навык улучшается не руками разработчика, а через цикл генерации, проверки и отбора.
Для меня это прямой маркер следующего этапа. Я давно говорю клиентам, что ручное промптование упирается в потолок: человек слишком медленно перебирает гипотезы, а система без жесткой оценки быстро деградирует в набор «удачных» случайностей.
На этом фоне Darwin Gödel Machine выглядит не академической экзотикой, а рабочей моделью будущей AI-архитектуры. Я изучил специфику подхода: есть базовый агент на замороженной foundation model, есть архив поколений, есть вероятностный выбор «родителей», есть самоизменение кода или промптов, и есть обязательная эмпирическая валидация на бенчмарках вроде SWE-bench и Polyglot.
Ключевой разворот здесь очень практичный. Вместо попытки доказать, что изменение полезно математически, система проверяет это на реальных задачах. Для инженерии это гораздо ценнее, потому что бизнесу нужен не философски безупречный агент, а агент, который стабильно решает задачи в продакшене.
Влияние на бизнес и автоматизацию
Я бы не продавал Skills 2.0 как «новую кнопку магии». Я бы трактовал это как сигнал рынку: внедрение искусственного интеллекта переходит из режима ручной настройки в режим управляемой селекции решений.
Выиграют те компании, которые уже умеют строить eval-first контуры. Проиграют команды, которые до сих пор считают, что ИИ автоматизация — это просто хороший системный промпт, пара функций и надежда, что модель «сама поймёт».
В моих проектах в Nahornyi AI Lab именно evals почти всегда становятся точкой, где рождается реальная ценность. Не модель как таковая. Не красивый интерфейс. А правильно собранная среда: сценарии проверки, метрики качества, sandbox, журнал изменений, rollback и понятный критерий, что агент действительно стал лучше.
Это меняет и бюджетирование. Если раньше заказчик платил в основном за разработку ИИ решений как за набор интеграций и бизнес-логики, то теперь всё чаще нужно закладывать деньги в инфраструктуру отбора: тестовые среды, контрольные датасеты, оркестрацию прогонов, хранение версий агентов и политики безопасности.
Именно поэтому сделать ИИ автоматизацию «по-быстрому» становится опасно. Чем больше агент получает права на изменение собственного поведения, тем выше цена плохой архитектуры. Без профессиональной ИИ интеграции компания может получить не самоулучшающуюся систему, а саморазрушающуюся.
Стратегический взгляд и глубокий разбор
Я вижу здесь более глубокий сдвиг, чем просто автоматизация промпт-инжиниринга. Следующая стадия разработки софта — это проектирование сред, в которых код, агенты, инструменты и промпты эволюционируют под управлением LLM, но в пределах жёстко заданной инженерной рамки.
Именно среда становится главным продуктом архитектуры. Не один агент, не один workflow, а система, где можно безопасно генерировать вариации, проверять их на бизнес-метриках и сохранять даже промежуточно слабые ветки как потенциально ценные для будущих итераций.
Я уже вижу аналог этого паттерна в корпоративных кейсах: сначала команда просит «ассистента для поддержки» или «агента для продаж», а через месяц выясняется, что узкое место не в модели. Узкое место — в отсутствии инфраструктуры измерения, где можно быстро понять, какой вариант поведения реально повышает конверсию, снижает SLA или уменьшает стоимость обработки кейса.
Поэтому мой прогноз простой. В ближайшие 12–24 месяца рынок разделится на тех, кто будет заказывать очередной набор промптов, и тех, кто начнёт строить архитектуру ИИ-решений как эволюционную систему с evals, архивами версий и контролируемым самоулучшением. Вторая группа получит не только лучшее качество, но и более устойчивую экономику масштабирования.
Этот разбор подготовил я, Вадим Нагорный — ведущий эксперт Nahornyi AI Lab по AI-архитектуре, внедрению ИИ и ИИ автоматизации. Если вы хотите не просто попробовать модный агентный стек, а выстроить систему, которая измеримо улучшается и безопасно работает в бизнесе, я приглашаю вас обсудить ваш проект со мной и командой Nahornyi AI Lab.