Skip to main content
prompt-engineeringllm-agentscontext-compression

Как сжимать контекст для агента без деградации

Обсуждаемая техника сжатия контекста для LLM-агентов сводится к трем опорам: инварианты, информационно плотная суть и Show, don't tell. Для бизнеса это важно, потому что AI automation начинает тратить меньше токенов, реже теряет фокус и лучше держит план на длинных задачах.

Технический контекст

Я зацепился за эту дискуссию не из-за красивой формулировки, а потому что это реально бьет в стоимость и качество AI automation. Когда агент тащит за собой весь мусор из истории, он не думает лучше. Он просто дороже ошибается.

Сама идея простая: в сжатии я сначала оставляю инварианты, потом выношу суть с высокой информационной плотностью, а для сложных мест показываю пример вместо длинного объяснения. То есть не пересказываю весь план, а сохраняю то, что нельзя ломать, что влияет на решение прямо сейчас и как именно должен выглядеть хороший результат.

И вот тут я понимаю обе стороны спора. Если план кривой с самого начала, потом действительно можно получить сотни строк выброшенного кода. Но и детальное ревью каждого плана тоже легко превращается в токеновую яму, где агент тратит контекст на самокопание вместо работы.

На практике я бы разделял два слоя. Первый слой, постоянный: цели, ограничения, архитектурные запреты, критичные допущения. Это и есть инварианты. Второй слой, короткоживущий: текущий шаг, спорные решения, свежие сигналы из логов, фейлы, которые нельзя повторять.

Часть про «высокую перплексию» я читаю по-инженерному, без романтики. Оставлять надо не «самое умное», а самое редкое и полезное: неожиданный баг, скрытое ограничение API, конфликт требований, цену ошибки. Всё банальное агент и так догенерит. Всё необычное он забудет первым.

А «Show, don't tell» вообще отлично работает в промптах. Вместо фразы «пиши кратко и по делу» я лучше дам мини-пример хорошего сжатия. Модель быстрее цепляет формат, а я получаю меньше расползания по стилю и меньше абстрактной болтовни.

Если смотреть на исследования по extractive compression, логика та же: выбирать важные фрагменты обычно надежнее, чем заново пересказывать их абстрактным саммари. Это особенно заметно в агентных цепочках, где любое неточное обобщение потом ломает план глубже по стеку.

Влияние на бизнес и автоматизацию

Для продакшена тут три прямых эффекта. Первый: дешевле длинные прогоны, потому что вы режете токены без слепого тримминга. Второй: меньше «lost in the middle», когда агент забывает критичный факт где-то в середине истории. Третий: проще AI integration в реальные процессы, где контекст постоянно шумный.

Выигрывают команды, у которых длинные workflow: разработка, саппорт, аудит, обработка документов. Проигрывают те, кто верит, что большой контекст сам по себе заменяет AI architecture.

Мы в Nahornyi AI Lab такие узкие места ловим постоянно: где хранить инварианты, что компрессировать экстрактивно, а что вообще нельзя резать. Если у вас агент уже жжет бюджет, но все равно теряет нить задачи, давайте разберем ваш сценарий и соберем AI solution development так, чтобы модель наконец работала, а не просто ела токены.

Отличный пример того, как на практике применяются эффективные промпты для сжатия информации, можно найти в области ИИ-суммаризации совещаний. Ранее мы анализировали ведущие платформы, такие как tl;dv, Otter.ai, Granola и Gemini, на предмет их точности, рисков и влияния на автоматизацию бизнеса при создании кратких итогов встреч.

Поделиться статьёй