Contexto técnico
No me centré en quejas abstractas, sino en un caso muy práctico: por la mañana le pides a Claude Code que haga un commit de los cambios de la noche anterior, y de repente se consume el 6% de tu cuota de cinco horas. En el plan Max 5x, esto ya no es un error menor, sino un golpe directo al ritmo de trabajo.
Tomando como referencia Max 5x, hablamos de aproximadamente 88,000 tokens en una ventana móvil de 5 horas. El seis por ciento de eso son unos 5,300 tokens. Para una operación del nivel de "recopila el diff, crea un mensaje adecuado y haz el commit", la cifra parece desorbitada.
Investigué cómo explican esto los propios usuarios y observadores del ecosistema de Anthropic. El patrón se repite: un arranque en frío (cold start) arrastra contexto innecesario a la sesión, el almacenamiento en caché de prompts (prompt caching) a veces funciona de manera inestable, y las repeticiones automáticas y los pasos de servicio internos inflan el consumo discretamente.
Es decir, el problema no es una única solicitud fallida. Parece que Claude Code tiene un alto sobrecoste base al iniciar una sesión, y en tareas simples esto es especialmente notable. Cuando una herramienta gasta miles de tokens antes de haber hecho un trabajo realmente útil, la economía del sistema empieza a resentirse.
Un matiz importante es que la cuota no es mensual, sino de cinco horas. Puedes alcanzar el límite en la primera mitad del día, y entonces no estás redistribuyendo un presupuesto, simplemente te sientas a esperar. Para el desarrollo, esto es más frustrante que el típico modelo de pago por uso (pay-per-use), porque bloquea el flujo de trabajo en sí.
Anthropic ya ha reconocido que algunos usuarios están alcanzando los límites más rápido de lo esperado. Pero desde la perspectiva de un ingeniero, lo importante no es el reconocimiento en sí, sino si el comportamiento se ha corregido en la práctica. Los comentarios actuales indican que para algunos equipos, la respuesta sigue siendo no, no se ha corregido.
Impacto en el negocio y la automatización
Lo que me preocupa aquí no es la molestia cotidiana, sino la conclusión a nivel de arquitectura. Si una operación simple como un commit consume de manera impredecible una parte significativa de la ventana, no puedo diseñar con confianza una integración de IA fiable en el proceso de desarrollo, CI o en scripts de agentes internos.
En las demostraciones, todo parece genial. En producción, de repente descubres que el agente que debería ahorrar tiempo se convierte él mismo en un recurso escaso.
Esto afecta especialmente a quienes quieren crear automatización con IA en torno a tareas de ingeniería rutinarias: generación de mensajes de commit, análisis de diffs, revisiones de código, changelogs y clasificación de tareas. Cuando el coste de un solo paso varía enormemente debido a un arranque en frío o una caché rota, la previsibilidad del presupuesto desaparece. Y sin ella, la implementación de inteligencia artificial se convierte rápidamente en un experimento caro.
¿Quién gana en este escenario? Las herramientas con una economía más clara: pago por token sin ventanas estrictas, caché estable, límites transparentes y telemetría adecuada. No es de extrañar que la gente ya esté mirando hacia Codex y otras alternativas donde al menos es más fácil entender por qué estás pagando.
¿Quién pierde? Los equipos que han vinculado partes críticas de su proceso a una única herramienta de agente sin una ruta de respaldo. Ya he visto esto antes: primero todos celebran la velocidad, luego se topan con los límites a mitad del sprint y vuelven al modo de apagar fuegos manualmente.
Precisamente por eso, en Nahornyi AI Lab, generalmente no construimos arquitecturas de soluciones de IA en torno a un único proveedor y un único modelo de precios. Para las empresas, casi siempre incluyo rutas de respaldo, circuitos separados para tareas caras y baratas, almacenamiento en caché de contexto y un control estricto de la economía unitaria. De lo contrario, cualquier arquitectura de IA se desmorona ante el primer aumento de los límites.
Mi conclusión es simple: Claude Code todavía puede ser una herramienta útil, pero si las operaciones básicas en Max 5x comienzan a consumir el 6% de la ventana, ya no es un error menor, sino una señal para reevaluar tu stack tecnológico. Para uso personal, es una molestia. Para un negocio, es un riesgo que debe calcularse de antemano.
Este análisis fue realizado por mí, Vadym Nahornyi de Nahornyi AI Lab. No me limito a repetir comunicados de prensa; recopilo y pruebo estas cosas en escenarios reales de automatización con IA y desarrollo de soluciones de IA para equipos.
Si lo deseas, puedo ayudarte a analizar tu caso: dónde estás quemando tokens actualmente, cómo reestructurar tu implementación de IA y con qué respaldar los procesos críticos. Escríbeme y revisaremos tu proyecto juntos.