Skip to main content
anthropicclauderate-limits

Claude Code стал быстрее съедать лимиты

Anthropic действительно подкрутил лимиты Claude в часы пик, и heavy users это сразу почувствовали. Для бизнеса это важно по простой причине: 1M контекст, memory и агентные сценарии начали быстрее сжигать сессию, так что ИИ автоматизация теперь требует более аккуратной архитектуры и контроля токенов.

Что именно подкрутили в Claude

Я полез не в слухи, а в обсуждения и сообщения самой Anthropic, и картина довольно приземлённая: лимиты на Claude.ai в марте 2026 не исчезли, но в часы пик их реально ужали. Речь про 5-часовые сессии, а не про красивый и прозрачный TPM, к которому многие привыкли в API.

Пиковое окно обозначили довольно чётко: будни, 8 AM-2 PM ET. В это время часть пользователей, особенно на Pro, стала упираться в потолок заметно раньше. Сама Anthropic пишет, что затронуто около 7% аудитории, но если вы гоняете Claude Code, агентные цепочки и длинные диалоги, шанс попасть в эти 7% очень даже бодрый.

Я бы не сводил всё только к «жадности платформы». Тут наложилось сразу несколько факторов.

  • агентные сценарии в Claude Code делают много скрытых шагов;
  • 1M контекст провоцирует держать слишком много мусора в сессии;
  • memory добавляет ещё один постоянный слой токенов;
  • в Claude.ai лимит ощущается как общий ресурс сессии, а не как понятная тарификация по запросу.

Отсюда и странное ощущение у людей: вроде работаешь «как раньше», а лимит улетает заметно быстрее. Особенно неприятно это выглядит на Opus и на задачах, где агент сам ходит по файлам, переформулирует шаги и гоняет длинные reasoning-циклы.

Был ещё временный бонус на off-peak часы до 28 марта, когда использование вне пика частично удваивали. Но это акция, а не новая норма. Если читать это уже после 28 марта 2026, то воспринимать историю нужно как сигнал: более щедрый режим закончился, и жить придётся в новой реальности.

Почему 1M контекст и memory бьют по карману сильнее, чем кажется

Меня тут больше всего цепляет не сам rate limit, а то, как люди проектируют работу с моделью. 1M контекст звучит как праздник, но на практике это часто просто разрешение не убирать за собой.

Если в сессии висит 150-200 тысяч токенов, каждый новый ход становится дороже. А если сверху включена memory, модель ещё и подтягивает сохранённые факты. Формально это удобно. По факту можно получить тихую утечку бюджета, когда контекст не выглядит огромным, но сессия сгорает как спичка.

Я бы сказал жёстче: большой контекст без дисциплины почти всегда хуже, чем нормальная архитектура ИИ-решений с буферизацией, суммаризацией и разнесением задач по стадиям.

Что это меняет для бизнеса и автоматизации

Для pet-проектов это раздражает. Для бизнеса это уже архитектурный вопрос.

Если у вас ИИ автоматизация завязана на Claude.ai как на «ручной комбайн для команды», внезапные лимиты ломают ритм работы. Разработчик или аналитик влетает в кап, агент останавливается, процесс висит. Внутри компании это выглядит не как проблема тарифа, а как просадка производительности.

Выигрывают те, кто уже разделяет режимы использования. Тяжёлые задачи уводят в API, батчат обработку, чистят контекст, отключают memory там, где она не нужна, и не заставляют одну модель тащить весь пайплайн целиком. Проигрывают те, кто строит внедрение искусственного интеллекта на ощущении, что «ну модель же умная, сама разберётся».

Мы в Nahornyi AI Lab с такими штуками регулярно возимся на практике: где-то достаточно переписать промпт и ввести жёсткую суммаризацию каждые N шагов, а где-то нужно полностью переделать AI-архитектуру и вынести тяжёлые агентные задачи из интерфейсной подписки в нормальную backend-схему.

Что я бы проверил прямо сейчас:

  • отключил бы memory в токеноёмких сценариях;
  • посмотрел бы реальный размер активного контекста, а не «на глаз»;
  • развёл бы интерактивную работу и фоновую обработку;
  • сдвинул бы тяжёлые прогоны вне peak hours;
  • заложил бы в бюджет рост стоимости, даже если новых тарифов пока не объявили.

И да, разговоры про будущие подписки на 400-500 долларов пока остаются разговорами. Но сам вектор понятен: чем мощнее модели и чем длиннее контекст, тем дороже будет делать вид, что токены бесконечные.

Этот разбор я написал сам, Вадим Нагорный, в Nahornyi AI Lab. Я не пересказываю пресс-релизы, а собираю и внедряю ИИ решения для бизнеса руками, включая ИИ интеграцию, агентные пайплайны и автоматизацию с помощью ИИ в реальных командах.

Если у вас Claude уже упирается в лимиты или вы хотите сделать ИИ автоматизацию без сюрпризов по расходу, напишите мне. Посмотрим на ваш кейс и вместе соберём рабочую схему.

Поделиться статьёй