Skip to main content
AnthropicClaude Coderate limits

Claude Code внезапно уперся в лимиты

В апреле 2026 пользователи Claude Code массово заметили более жесткие 5-часовые лимиты и странный скачок расхода токенов, похожий на баг кеширования. Для бизнеса это важно: AI automation и heavy coding-сценарии становятся менее предсказуемыми по цене и пропускной способности.

Технический контекст

Я люблю такие истории не за драму, а за то, как быстро они вскрывают слабые места в AI architecture. В начале апреля пользователи Claude Code начали массово писать, что привычный режим работы внезапно перестал помещаться в 5-часовые лимиты. Причем речь не о безумных нагрузках, а о довольно обычной генерации кода в пару потоков.

По исходным жалобам картина неприятная: на более дорогом плане лимит раньше было трудно выбрать даже при активной работе, а после даунгрейда на x5 люди почти сразу упираются в потолок. Один из самых показательных кейсов: после полного сброса сессии пользователь отправил около 130k токенов, продолжил прошлый контекст, выпавший из часового кеша, и почти мгновенно увидел списание около 5% 5-часового лимита.

Я здесь сразу делаю две пометки. Первая: это не выглядит как просто “люди стали больше пользоваться”. Вторая: подозрение на мусорные токены при создании кеша звучит правдоподобно, потому что похожие скачки счетчика уже обсуждали раньше.

По внешнему фону все тоже сходится. После конца марта Anthropic убрал часть послаблений, включая промо с повышенными лимитами в непиковые часы, и на фоне дефицита GPU начал заметно сильнее сдерживать нагрузку. Отсюда и двойной удар: с одной стороны реальное ужесточение rate limits, с другой, возможно, кривой подсчет токенов или неудачная логика prompt caching.

Для тех, кто строит AI integration в разработке, проблема не абстрактная. Когда лимит сгорает не от полезной генерации, а от внутренней механики кеша или повторной обработки длинного контекста, вся экономика пайплайна начинает врать.

Влияние на бизнес и автоматизацию

Если я собираю AI solution development для команды разработки, я не могу опираться на “ну вроде хватает”. Мне нужна предсказуемость: сколько стоит одна задача, сколько параллельных сессий держит команда, что происходит с длинными агентными цепочками, как быстро деградирует производительность под нагрузкой.

И вот здесь Claude Code сейчас выглядит хуже именно для heavy usage. Не потому что модель внезапно стала плохой, а потому что слой биллинга и лимитов бьет по реальному UX сильнее, чем сами модельные качества. Когда разработчик боится открыть второй поток или продолжить длинную сессию, AI automation превращается из ускорителя в лотерею.

Кто выигрывает? Те, у кого короткие сессии, простые задачи и запасной стек из нескольких провайдеров. Кто проигрывает? Команды, которые привыкли держать длинный инженерный контекст, гонять исследовательские ветки и строить полуавтономных coding-агентов на подписке.

Я бы сейчас не закладывал Claude-подписку как единственный фундамент для внутренних инженерных процессов. Лучше проектировать маршрутизацию: короткие задачи в один слой, длинный кодовый контекст в другой, критичные пайплайны через API с отдельным контролем затрат и логированием фактического token burn. Иначе один неожиданный пересчет кеша ломает не только бюджет, но и сроки.

У Anthropic, скорее всего, здесь смесь из двух проблем: нехватка inference capacity и спорная реализация лимитирования под реальные coding-сценарии. Это можно пережить, но только если архитектура изначально не завязана на один канал доступа и одну красивую подписку.

Мы в Nahornyi AI Lab как раз разбираем такие узкие места на практике: где подписка годится для прототипа, а где уже нужна нормальная AI implementation с маршрутизацией моделей, кеш-стратегией и защитой от внезапных лимитов. Если у вас разработка или саппорт уже спотыкаются об эти ограничения, можно спокойно посмотреть ваш workflow и собрать AI automation так, чтобы команда не зависела от чужих сюрпризов каждые пять часов.

Поделиться статьёй