Технический контекст
Я зацепился за эту дискуссию не из-за красивой формулировки, а потому что это реально бьет в стоимость и качество AI automation. Когда агент тащит за собой весь мусор из истории, он не думает лучше. Он просто дороже ошибается.
Сама идея простая: в сжатии я сначала оставляю инварианты, потом выношу суть с высокой информационной плотностью, а для сложных мест показываю пример вместо длинного объяснения. То есть не пересказываю весь план, а сохраняю то, что нельзя ломать, что влияет на решение прямо сейчас и как именно должен выглядеть хороший результат.
И вот тут я понимаю обе стороны спора. Если план кривой с самого начала, потом действительно можно получить сотни строк выброшенного кода. Но и детальное ревью каждого плана тоже легко превращается в токеновую яму, где агент тратит контекст на самокопание вместо работы.
На практике я бы разделял два слоя. Первый слой, постоянный: цели, ограничения, архитектурные запреты, критичные допущения. Это и есть инварианты. Второй слой, короткоживущий: текущий шаг, спорные решения, свежие сигналы из логов, фейлы, которые нельзя повторять.
Часть про «высокую перплексию» я читаю по-инженерному, без романтики. Оставлять надо не «самое умное», а самое редкое и полезное: неожиданный баг, скрытое ограничение API, конфликт требований, цену ошибки. Всё банальное агент и так догенерит. Всё необычное он забудет первым.
А «Show, don't tell» вообще отлично работает в промптах. Вместо фразы «пиши кратко и по делу» я лучше дам мини-пример хорошего сжатия. Модель быстрее цепляет формат, а я получаю меньше расползания по стилю и меньше абстрактной болтовни.
Если смотреть на исследования по extractive compression, логика та же: выбирать важные фрагменты обычно надежнее, чем заново пересказывать их абстрактным саммари. Это особенно заметно в агентных цепочках, где любое неточное обобщение потом ломает план глубже по стеку.
Влияние на бизнес и автоматизацию
Для продакшена тут три прямых эффекта. Первый: дешевле длинные прогоны, потому что вы режете токены без слепого тримминга. Второй: меньше «lost in the middle», когда агент забывает критичный факт где-то в середине истории. Третий: проще AI integration в реальные процессы, где контекст постоянно шумный.
Выигрывают команды, у которых длинные workflow: разработка, саппорт, аудит, обработка документов. Проигрывают те, кто верит, что большой контекст сам по себе заменяет AI architecture.
Мы в Nahornyi AI Lab такие узкие места ловим постоянно: где хранить инварианты, что компрессировать экстрактивно, а что вообще нельзя резать. Если у вас агент уже жжет бюджет, но все равно теряет нить задачи, давайте разберем ваш сценарий и соберем AI solution development так, чтобы модель наконец работала, а не просто ела токены.