Skip to main content
prompt-engineeringllm-agentscontext-compression

Як стискати контекст для агента без деградації

Техніка стиснення контексту для LLM-агентів базується на трьох принципах: інваріанти, інформаційно щільна суть і «Show, don't tell». Для бізнесу це важливо, оскільки AI-автоматизація витрачає менше токенів, рідше втрачає фокус і краще дотримується плану у довготривалих завданнях, що підвищує ефективність.

Технічний контекст

Я зацікавився цією дискусією не через красиве формулювання, а тому що це реально б'є по вартості та якості AI automation. Коли агент тягне за собою все сміття з історії, він не думає краще. Він просто дорожче помиляється.

Сама ідея проста: при стисненні я спочатку залишаю інваріанти, потім виношу суть з високою інформаційною щільністю, а для складних місць показую приклад замість довгого пояснення. Тобто не переказую весь план, а зберігаю те, що не можна ламати, що впливає на рішення прямо зараз і як саме має виглядати хороший результат.

І ось тут я розумію обидві сторони суперечки. Якщо план кривий із самого початку, потім справді можна отримати сотні рядків викинутого коду. Але й детальне рев'ю кожного плану теж легко перетворюється на токенову яму, де агент витрачає контекст на самокопання замість роботи.

На практиці я б розділяв два шари. Перший шар, постійний: цілі, обмеження, архітектурні заборони, критичні припущення. Це і є інваріанти. Другий шар, короткоживучий: поточний крок, спірні рішення, свіжі сигнали з логів, фейли, які не можна повторювати.

Частину про «високу перплексію» я читаю по-інженерному, без романтики. Залишати треба не «найрозумніше», а найрідкісніше та найкорисніше: несподіваний баг, приховане обмеження API, конфлікт вимог, ціну помилки. Все банальне агент і так догенерує. Все незвичайне він забуде першим.

А «Show, don't tell» взагалі чудово працює в промптах. Замість фрази «пиши коротко і по суті» я краще дам міні-приклад хорошого стиснення. Модель швидше вловлює формат, а я отримую менше розповзання стилю та менше абстрактної балаканини.

Якщо дивитися на дослідження з extractive compression, логіка та ж: вибирати важливі фрагменти зазвичай надійніше, ніж заново переказувати їх абстрактним самарі. Це особливо помітно в агентних ланцюжках, де будь-яке неточне узагальнення потім ламає план глибше по стеку.

Вплив на бізнес та автоматизацію

Для продакшену тут три прямі ефекти. Перший: дешевші довгі прогони, тому що ви ріжете токени без сліпого трімінгу. Другий: менше «lost in the middle», коли агент забуває критичний факт десь у середині історії. Третій: простіша AI integration у реальні процеси, де контекст постійно зашумлений.

Виграють команди, у яких довгі workflow: розробка, сапорт, аудит, обробка документів. Програють ті, хто вірить, що великий контекст сам по собі замінює AI architecture.

Ми в Nahornyi AI Lab такі вузькі місця ловимо постійно: де зберігати інваріанти, що компресувати екстрактивно, а що взагалі не можна різати. Якщо у вас агент вже палить бюджет, але все одно втрачає нитку задачі, давайте розберемо ваш сценарій і зберемо AI solution development так, щоб модель нарешті працювала, а не просто їла токени.

Чудовий приклад того, як на практиці застосовуються ефективні промпти для стиснення інформації, можна знайти у сфері ШІ-сумаризації зустрічей. Раніше ми аналізували провідні платформи, такі як tl;dv, Otter.ai, Granola та Gemini, на предмет їхньої точності, ризиків та впливу на автоматизацію бізнесу при створенні стислих підсумків нарад.

Поділитися статтею