Vercel показала слабое место skills у AI-агентов

Vercel сравнила два способа задавать поведение агентам и получила жёсткий результат: постоянный контекст в AGENTS.md сжал skills по качеству на реальных evals. Для бизнеса это важно, потому что меняется сама логика AI-архитектуры: меньше магии вызова, больше детерминированности.

Что именно проверили и почему цифры тут не декоративные

Я люблю такие публикации не за громкий заголовок, а за момент, где можно ткнуть пальцем в архитектурную ошибку. Vercel прогнала агентов по задачам, где нужна была документация Next.js, причём часть знаний не сидела у модели в предобучении. Это уже нормальный тест на поведение системы, а не красивое демо.

Схема была простой. Базовый агент без внешней помощи проходил evals на уровне 53%. Дальше ему давали либо skills, либо AGENTS.md, и тут началось самое интересное.

Skills в этом дизайне были устроены как папки с SKILL.md, метаданными, инструкциями и допфайлами. Агент должен сначала понять, что нужный skill вообще существует, потом решить, что его надо вызвать, и только потом загрузить содержимое. На бумаге выглядит аккуратно. В реальности агент часто просто не доходил до этого шага.

По данным Vercel, skills сами по себе тоже дали 53%. То есть ноль прироста. Ещё жестче другое: примерно в 56% случаев агент вообще не вызывал skill, хотя тот был релевантен.

А вот AGENTS.md сработал как постоянный контекст в system prompt. Не надо ничего искать, не надо принимать промежуточное решение о загрузке. Если в этот файл положить сжатую выжимку доков или индекс, агент видит её всегда. В evals у Vercel вариант с полным сжатым контекстом в AGENTS.md дошёл до 100% pass rate.

Меня тут зацепила не сама markdown-магия. Зацепило то, что markdown победил не потому, что он красивый, а потому что убрал лишнюю точку отказа. Модель не забыла вызвать инструмент, потому что вы просто не оставили ей такого шанса.

Что это меняет в AI-архитектуре и внедрении ИИ

Если перевести это с языка benchmark'ов на язык продакшена, вывод очень приземлённый. Когда критичное знание для выполнения задачи лежит в optional-механике, вы строите хрупкую систему. Она может быть элегантной на схеме, но нестабильной в бою.

Я это вижу постоянно в проектах на ИИ автоматизацию. Команда делает агенту набор tools, skills, memory-слоёв, роутеров и ещё немного надежды сверху. Потом все удивляются, почему агент иногда умный, а иногда как будто забыл, где находится.

Подход с AGENTS.md подсказывает более практичную архитектуру ИИ-решений. Базовые правила, индекс доменных знаний, ограничения, формат ответа и ключевые маршруты надо держать в постоянном контексте. А skills и tools оставлять для того, что действительно нужно подтягивать по требованию: тяжёлые справочники, внешние API, редкие процедуры.

То есть не «или-или», а нормальный гибрид. Я бы формулировал так: AGENTS.md для детерминированности, skills для расширяемости. Это уже похоже на взрослую AI-архитектуру, а не на набор фич, которые случайно оказались в одном репозитории.

Есть и ограничение, оно честное. Вечный контекст нельзя раздувать бесконечно. Vercel прямо показывает, что смысл не в том, чтобы засунуть в AGENTS.md все доки целиком, а в том, чтобы ужать их до короткой, полезной, хорошо индексированной выжимки. У них фигурировал порядок 8 KB вместо 40 KB исходного материала, и это звучит очень здраво.

Кто выиграет от такого сдвига? Команды, которым нужна предсказуемая автоматизация с помощью ИИ: саппорт, внутренние copilot'ы, агентные workflow для разработки, ops и документооборота. Кто проиграет? Проекты, где архитектура держится на вере, что модель «сама догадается вызвать нужный модуль».

Я бы не делал из этого универсальный закон природы. Это результаты Vercel на конкретных evals вокруг Next.js, и на других задачах расклад может плавать. Но сигнал очень сильный: при внедрении искусственного интеллекта в реальные процессы надо проектировать не только знания агента, но и путь доступа к этим знаниям.

Мы в Nahornyi AI Lab как раз на этом месте чаще всего и режем лишнее. Не добавляем агенту ещё десять абстракций, а убираем одно лишнее решение, которое он принимает нестабильно. И внезапно всё начинает работать лучше, дешевле и спокойнее.

Разбор сделал я, Вадим Нагорный, в Nahornyi AI Lab. Я занимаюсь разработкой ИИ решений и собираю агентные системы руками, поэтому такие детали для меня не теория, а ежедневная инженерная рутина. Если хотите обсудить ваш кейс, внедрение ИИ или сделать ИИ автоматизацию без хрупкой магии, пишите мне. Посмотрим на ваш проект вместе.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Vercel показала слабое место skills у AI-агентов

Что именно проверили и почему цифры тут не декоративные

Что это меняет в AI-архитектуре и внедрении ИИ

Ещё новости

Grok выиграл там, где важна свежесть данных

Fast-режим стал выгоднее для частой работы