Contexte technique
J'ai examiné cette idée en tant qu'ingénieur, pas en tant que théoricien de forum. La logique est claire : prendre un abonnement Claude Code à 20, 100 ou 200 $, sniffer le trafic, le rediriger via un lm-proxy ou une passerelle personnalisée, et envoyer les tâches à des modèles spécialisés moins chers. Pour l'intégration de l'IA, cela semble tentant, surtout quand une API par token coûte des dizaines ou des centaines de dollars pour une tâche volumineuse.
Mais c'est là que tout s'écroule, et pas seulement au niveau du "bah, une requête, c'est juste du JSON". Claude Code repose sur des requêtes autorisées à l'infrastructure d'Anthropic, où non seulement le payload compte, mais aussi les jetons, le schéma de réponse, le timing, les limites, et parfois même la logique de suivi d'utilisation côté serveur. Si vous insérez un proxy entre le client et le backend, il ne suffit pas de lire le trafic ; il faut reproduire de manière crédible l'intégralité du contrat.
Et là, je ne compterais pas sur une victoire facile. HTTPS, un éventuel certificate pinning, des jetons à courte durée de vie, la vérification des endpoints, des anomalies comportementales dans la latence et la forme des réponses, ainsi que des mises à jour rapides du client. C'est un montage fragile qui ne peut tenir que jusqu'à la prochaine version.
Un point que beaucoup confondent : l'agent ici n'est pas de la magie ou du "code effrayant sur une machine". Il s'agit généralement d'une simple orchestration d'un modèle, d'outils, d'un contexte et d'étapes d'exécution. Mais si un fournisseur vend un abonnement pour sa propre UX et ses propres limites, et que vous essayez de le transformer en un transport universel et bon marché pour des agents tiers, cela ressemble déjà à un cas d'anti-abus, pas à une architecture d'IA normale.
Qu'est-ce que cela change pour les entreprises et l'automatisation ?
En bref : je ne miserais pas là-dessus pour la production. Le risque que le système fonctionne aujourd'hui mais que demain vous soyez banni, avec un pipeline cassé et une migration d'urgence en plein sprint, est trop élevé.
Les seuls gagnants ici sont les expérimentateurs qui ne craignent pas de perdre un compte et de passer du temps à réparer constamment leurs bricolages. Les perdants sont les équipes qui ont besoin d'une implémentation d'IA prévisible avec des coûts clairs, des SLA et un contrôle des données.
Dans de tels cas, je simplifie généralement la tâche : là où Claude est nécessaire, j'utilise Claude ; là où le trafic peut être dévié vers des modèles moins chers, je le fais honnêtement via un routeur approprié et ma propre logique de sélection de modèle. Ce sont exactement les types de solutions que nous construisons pour les clients chez Nahornyi AI Lab : pas de schémas douteux, juste une automatisation par IA fonctionnelle qui ne s'effondre pas après une seule mise à jour. Si vos coûts d'inférence s'accumulent ou si votre pile d'agents est devenue trop chère, examinons l'architecture et trouvons où vous pouvez réellement économiser sans vous battre avec le fournisseur.