Claude почав швидше вичерпувати ліміти. Розбираємось, чому.

Anthropic дійсно посилив ліміти Claude у години пік, і активні користувачі це одразу відчули. Для бізнесу це важливо, оскільки контекст в 1M, memory та агентні сценарії тепер швидше вичерпують сесію. Це вимагає більш продуманої архітектури та ретельного контролю токенів для надійної ШІ-автоматизації.

Що саме змінили в Claude

Я вирішив перевірити не чутки, а обговорення та повідомлення самої Anthropic, і картина досить проста: ліміти на Claude.ai в березні 2026 року не зникли, але в години пік їх справді посилили. Йдеться про 5-годинні сесії, а не про красивий та прозорий TPM, до якого багато хто звик в API.

Піковий час визначили доволі чітко: будні, з 8 AM до 2 PM ET. У цей період частина користувачів, особливо на плані Pro, почала впиратися в ліміт значно раніше. Сама Anthropic пише, що це торкнулося близько 7% аудиторії, але якщо ви активно використовуєте Claude Code, агентні ланцюжки та довгі діалоги, шанс потрапити в ці 7% дуже високий.

Я б не зводив усе лише до «жадібності платформи». Тут наклалося одразу кілька факторів.

агентні сценарії в Claude Code роблять багато прихованих кроків;
контекст в 1M токенів провокує тримати забагато сміття в сесії;
функція memory додає ще один постійний шар токенів;
у Claude.ai ліміт відчувається як загальний ресурс сесії, а не як зрозуміла тарифікація за запитом.

Звідси й дивне відчуття у людей: ніби працюєш «як раніше», а ліміт зникає помітно швидше. Особливо неприємно це для Opus та завдань, де агент сам працює з файлами, переформульовує кроки та виконує довгі цикли розмірковування.

Був ще тимчасовий бонус для годин поза піком до 28 березня, коли використання частково подвоювали. Але це акція, а не нова норма. Якщо ви читаєте це вже після 28 березня 2026 року, сприймайте це як сигнал: щедрий режим закінчився, і доведеться жити в новій реальності.

Чому контекст в 1M та memory б'ють по кишені сильніше, ніж здається

Мене тут найбільше турбує не сам ліміт, а те, як люди проєктують роботу з моделлю. Контекст в 1M токенів звучить як свято, але на практиці це часто просто дозвіл не прибирати за собою.

Якщо в сесії «висить» 150-200 тисяч токенів, кожен новий крок стає дорожчим. А якщо зверху увімкнена memory, модель ще й підтягує збережені факти. Формально це зручно. По факту можна отримати тихий витік бюджету, коли контекст не виглядає величезним, але сесія згорає, як сірник.

Я б сказав жорсткіше: великий контекст без дисципліни майже завжди гірший, ніж нормальна архітектура ШІ-рішень з буферизацією, сумаризацією та рознесенням завдань по стадіях.

Що це змінює для бізнесу та автоматизації

Для пет-проєктів це дратує. Для бізнесу це вже архітектурне питання.

Якщо ваша ШІ-автоматизація зав'язана на Claude.ai як на «ручному комбайні для команди», раптові ліміти ламають ритм роботи. Розробник чи аналітик впирається в обмеження, агент зупиняється, процес зависає. Всередині компанії це виглядає не як проблема тарифу, а як просідання продуктивності.

Виграють ті, хто вже розділяє режими використання. Важкі завдання переносять в API, обробляють пакетами, чистять контекст, вимикають memory там, де вона не потрібна, і не змушують одну модель тягнути весь пайплайн. Програють ті, хто будує впровадження штучного інтелекту на відчутті, що «ну модель же розумна, сама розбереться».

Ми в Nahornyi AI Lab з такими речами регулярно працюємо на практиці: десь достатньо переписати промпт і ввести жорстку сумаризацію кожні N кроків, а десь потрібно повністю переробити ШІ-архітектуру та винести важкі агентні завдання з інтерфейсної підписки в нормальну backend-схему.

Що б я перевірив просто зараз:

вимкнув би memory в сценаріях, що споживають багато токенів;
перевірив би реальний розмір активного контексту, а не «на око»;
розділив би інтерактивну роботу та фонову обробку;
змістив би важкі завдання на години поза піком;
заклав би в бюджет зростання вартості, навіть якщо нових тарифів ще не оголосили.

І так, розмови про майбутні підписки за 400-500 доларів поки залишаються розмовами. Але сам вектор зрозумілий: чим потужніші моделі та чим довший контекст, тим дорожче буде вдавати, що токени нескінченні.

Цей розбір написав я, Вадим Нагорний, у Nahornyi AI Lab. Я не переказую пресрелізи, а збираю та впроваджую ШІ-рішення для бізнесу власноруч, включно з ШІ-інтеграцією, агентними пайплайнами та автоматизацією за допомогою ШІ в реальних командах.

Якщо ваш Claude вже впирається в ліміти або ви хочете створити ШІ-автоматизацію без сюрпризів з витратами, напишіть мені. Розглянемо ваш кейс і разом зберемо робочу схему.

Поділитися статтею

Twitter/X LinkedIn Telegram

Claude почав швидше вичерпувати ліміти. Розбираємось, чому.

Що саме змінили в Claude

Чому контекст в 1M та memory б'ють по кишені сильніше, ніж здається

Що це змінює для бізнесу та автоматизації

Ще новини

LFM2.5-8B-A1B: як реально позбутися зациклення

Твіт Альтмана є, а релізу поки не видно