Технический контекст
Я внимательно прошелся по постмортему Anthropic от 23 апреля, и здесь самое интересное не в самом баге, а в том, как аккуратная на вид AI integration развалилась из-за нескольких мелких решений сразу. Если вы строите AI automation поверх LLM, это очень знакомый сценарий: модель вроде та же, а продукт внезапно стал глупее, забывчивее и суше.
Anthropic описала три независимых изменения. Первое внесли 4 марта: в Claude Code понизили default reasoning effort с high до medium, чтобы ускорить ответы. На внутренних тестах падение качества выглядело умеренным, а в реальной работе users получили заметно более слабый кодовый ассистент. Откатили это только 7 апреля.
Второе прилетело 26 марта. Команда хотела очищать кеш reasoning после часа простоя, но из-за бага очистка начинала срабатывать на каждом следующем ходе сессии. Отсюда и ощущение, что Claude забывает контекст, повторяется и ведет себя как после удара по голове. Этот баг дожил до 10 апреля.
Третье изменение появилось 16 апреля, уже после релиза Opus 4.7. Чтобы убрать лишнюю многословность и сократить расход токенов, Anthropic добавила ограничения в system prompt. И вот тут все сложилось особенно неприятно: новая инструкция вместе с другими prompt-правками просадила качество кодинга сразу у нескольких версий, включая Sonnet 4.6, Opus 4.6 и Opus 4.7. Откат сделали 20 апреля.
Ключевой момент: базовая модель и core API, по словам Anthropic, не были сломаны. Сломалась продуктовая надстройка. Это, честно, мой любимый и самый неприятный тип инцидентов, потому что виноват не один большой релиз, а сумма «безопасных» изменений в параметрах, prompt-слое и управлении сессией.
Что это меняет для бизнеса и автоматизации
Для команд это очень трезвый сигнал: деградация LLM-системы часто приходит не из модели, а из обвязки. Если у вас AI solution development завязан на system prompts, кеш, роутинг и latency tuning, значит тестировать надо не только модель, но и весь оркестр целиком.
Кто выигрывает? Те, у кого есть staged rollout, нормальные cohort-метрики и быстрый rollback. Кто проигрывает? Команды, которые считают prompt «не кодом» и выкатывают такие изменения почти без инженерной дисциплины.
Я у себя давно отношусь к prompt-слою как к части архитектуры, а не как к текстовому файлику на коленке. В Nahornyi AI Lab мы как раз решаем такие штуки для клиентов: раскладываем AI architecture по слоям, ставим наблюдаемость и убираем хрупкие места, которые потом внезапно съедают качество.
Если вы уже видите, что ваш ассистент то умнеет, то тупит без очевидной причины, это обычно не магия и не «модель устала». Можно спокойно разобрать ваш контур и build AI automation так, чтобы он держался не на удаче, а на инженерных гарантиях. Если хотите, в Nahornyi AI Lab я помогу быстро найти, где именно у вас течет прод.