Технический контекст
Я посмотрел на эту идею как инженер, а не как форумный теоретик. Логика понятная: взять Claude Code по подписке за $20, $100 или $200, поснифать трафик, подменить маршрут через lm-proxy или свой шлюз и пустить задачи в более дешевые специализированные модели. Для AI integration звучит соблазнительно, особенно если per-token API на объемной задаче сжигает десятки или сотни долларов.
Но здесь все ломается не на уровне “ну, запрос же это просто JSON”. Claude Code сидит на авторизованных запросах к инфраструктуре Anthropic, где важны не только payload, но и токены, схема ответа, тайминг, лимиты, а иногда и серверная логика учета использования. Если между клиентом и бэкендом вкрутить прокси, нужно не просто прочитать трафик, а еще правдоподобно воспроизвести весь контракт.
И вот тут я бы сильно не рассчитывал на легкую победу. HTTPS, возможный certificate pinning, короткоживущие токены, сверка endpoint-ов, поведенческие аномалии по латентности и форме ответов, плюс быстрые апдейты клиента. Хрупкая схема, которую можно поддерживать ровно до ближайшего релиза.
Отдельный момент, который многие путают: агент здесь не магия и не “страшный код на машине”. Обычно это просто оркестрация модели, инструментов, контекста и шагов выполнения. Но если провайдер продает подписку под свой UX и свои лимиты, а вы пытаетесь превратить ее в универсальный дешевый транспорт для чужих агентов, это уже выглядит как антиабьюз-кейс, а не как нормальная AI architecture.
Что это меняет для бизнеса и автоматизации
Если коротко: для продакшена я бы на такое не ставил. Слишком высокий риск, что сегодня схема работает, а завтра у вас бан, сломанный пайплайн и внезапная миграция посреди спринта.
Выиграют тут только экспериментаторы, которым не жалко аккаунт и время на постоянный ремонт костылей. Проиграют команды, которым нужна предсказуемая AI implementation с понятной себестоимостью, SLA и контролем данных.
Я в таких случаях обычно режу задачу проще: где нужен Claude, оставляю Claude; где можно увести трафик в дешевые модели, делаю это честно через нормальный маршрутизатор и свою логику выбора модели. Именно такие развилки мы и собираем для клиентов в Nahornyi AI Lab: без серых схем, с рабочей AI automation, которая не разваливается от одного апдейта. Если у вас уже набежали расходы на инференс или агентный стек получился слишком дорогим, давайте посмотрим архитектуру и найдем, где реально сэкономить без войны с провайдером.