Почему Anthropic уронила Claude Code

Anthropic опубликовала постмортем по сбоям Claude Code: проблема была не в ядре модели, а в трех продуктовых изменениях, которые сложились в один провал. Для бизнеса это прямой урок по AI integration: ломается не только модель, но и вся обвязка вокруг нее.

Технический контекст

Я внимательно прошелся по постмортему Anthropic от 23 апреля, и здесь самое интересное не в самом баге, а в том, как аккуратная на вид AI integration развалилась из-за нескольких мелких решений сразу. Если вы строите AI automation поверх LLM, это очень знакомый сценарий: модель вроде та же, а продукт внезапно стал глупее, забывчивее и суше.

Anthropic описала три независимых изменения. Первое внесли 4 марта: в Claude Code понизили default reasoning effort с high до medium, чтобы ускорить ответы. На внутренних тестах падение качества выглядело умеренным, а в реальной работе users получили заметно более слабый кодовый ассистент. Откатили это только 7 апреля.

Второе прилетело 26 марта. Команда хотела очищать кеш reasoning после часа простоя, но из-за бага очистка начинала срабатывать на каждом следующем ходе сессии. Отсюда и ощущение, что Claude забывает контекст, повторяется и ведет себя как после удара по голове. Этот баг дожил до 10 апреля.

Третье изменение появилось 16 апреля, уже после релиза Opus 4.7. Чтобы убрать лишнюю многословность и сократить расход токенов, Anthropic добавила ограничения в system prompt. И вот тут все сложилось особенно неприятно: новая инструкция вместе с другими prompt-правками просадила качество кодинга сразу у нескольких версий, включая Sonnet 4.6, Opus 4.6 и Opus 4.7. Откат сделали 20 апреля.

Ключевой момент: базовая модель и core API, по словам Anthropic, не были сломаны. Сломалась продуктовая надстройка. Это, честно, мой любимый и самый неприятный тип инцидентов, потому что виноват не один большой релиз, а сумма «безопасных» изменений в параметрах, prompt-слое и управлении сессией.

Что это меняет для бизнеса и автоматизации

Для команд это очень трезвый сигнал: деградация LLM-системы часто приходит не из модели, а из обвязки. Если у вас AI solution development завязан на system prompts, кеш, роутинг и latency tuning, значит тестировать надо не только модель, но и весь оркестр целиком.

Кто выигрывает? Те, у кого есть staged rollout, нормальные cohort-метрики и быстрый rollback. Кто проигрывает? Команды, которые считают prompt «не кодом» и выкатывают такие изменения почти без инженерной дисциплины.

Я у себя давно отношусь к prompt-слою как к части архитектуры, а не как к текстовому файлику на коленке. В Nahornyi AI Lab мы как раз решаем такие штуки для клиентов: раскладываем AI architecture по слоям, ставим наблюдаемость и убираем хрупкие места, которые потом внезапно съедают качество.

Если вы уже видите, что ваш ассистент то умнеет, то тупит без очевидной причины, это обычно не магия и не «модель устала». Можно спокойно разобрать ваш контур и build AI automation так, чтобы он держался не на удаче, а на инженерных гарантиях. Если хотите, в Nahornyi AI Lab я помогу быстро найти, где именно у вас течет прод.

Связанное исследование уязвимостей ИИ показало, как сбой саморефлексии Claude может быть использован через prompt injection, что потенциально ведет к DoS-атакам. Такие инциденты подчеркивают острую необходимость в детальных постмортемах и надежных мерах безопасности при развертывании ИИ.

Поделиться статьёй

Twitter/X LinkedIn Telegram

Почему Anthropic уронила Claude Code

Технический контекст

Что это меняет для бизнеса и автоматизации

Ещё новости

ИИ в госуправлении: где эффективность, а где мина

GPT-5.5: меньше шума, больше работы