Технічний контекст
Я зацікавився цією дискусією не через красиве формулювання, а тому що це реально б'є по вартості та якості AI automation. Коли агент тягне за собою все сміття з історії, він не думає краще. Він просто дорожче помиляється.
Сама ідея проста: при стисненні я спочатку залишаю інваріанти, потім виношу суть з високою інформаційною щільністю, а для складних місць показую приклад замість довгого пояснення. Тобто не переказую весь план, а зберігаю те, що не можна ламати, що впливає на рішення прямо зараз і як саме має виглядати хороший результат.
І ось тут я розумію обидві сторони суперечки. Якщо план кривий із самого початку, потім справді можна отримати сотні рядків викинутого коду. Але й детальне рев'ю кожного плану теж легко перетворюється на токенову яму, де агент витрачає контекст на самокопання замість роботи.
На практиці я б розділяв два шари. Перший шар, постійний: цілі, обмеження, архітектурні заборони, критичні припущення. Це і є інваріанти. Другий шар, короткоживучий: поточний крок, спірні рішення, свіжі сигнали з логів, фейли, які не можна повторювати.
Частину про «високу перплексію» я читаю по-інженерному, без романтики. Залишати треба не «найрозумніше», а найрідкісніше та найкорисніше: несподіваний баг, приховане обмеження API, конфлікт вимог, ціну помилки. Все банальне агент і так догенерує. Все незвичайне він забуде першим.
А «Show, don't tell» взагалі чудово працює в промптах. Замість фрази «пиши коротко і по суті» я краще дам міні-приклад хорошого стиснення. Модель швидше вловлює формат, а я отримую менше розповзання стилю та менше абстрактної балаканини.
Якщо дивитися на дослідження з extractive compression, логіка та ж: вибирати важливі фрагменти зазвичай надійніше, ніж заново переказувати їх абстрактним самарі. Це особливо помітно в агентних ланцюжках, де будь-яке неточне узагальнення потім ламає план глибше по стеку.
Вплив на бізнес та автоматизацію
Для продакшену тут три прямі ефекти. Перший: дешевші довгі прогони, тому що ви ріжете токени без сліпого трімінгу. Другий: менше «lost in the middle», коли агент забуває критичний факт десь у середині історії. Третій: простіша AI integration у реальні процеси, де контекст постійно зашумлений.
Виграють команди, у яких довгі workflow: розробка, сапорт, аудит, обробка документів. Програють ті, хто вірить, що великий контекст сам по собі замінює AI architecture.
Ми в Nahornyi AI Lab такі вузькі місця ловимо постійно: де зберігати інваріанти, що компресувати екстрактивно, а що взагалі не можна різати. Якщо у вас агент вже палить бюджет, але все одно втрачає нитку задачі, давайте розберемо ваш сценарій і зберемо AI solution development так, щоб модель нарешті працювала, а не просто їла токени.