Skip to main content
AnthropicClaude Coderate limits

Claude Code Choca Inesperadamente con sus Límites

En abril de 2026, usuarios de Claude Code notaron límites de 5 horas más estrictos y un extraño aumento en el uso de tokens, similar a un error de caché. Esto es crucial para las empresas: la automatización con IA y los escenarios de codificación intensiva se vuelven menos predecibles en coste y capacidad.

Contexto técnico

Me encantan estas historias no por el drama, sino por lo rápido que exponen las debilidades en la arquitectura de IA. A principios de abril, los usuarios de Claude Code comenzaron a reportar masivamente que su flujo de trabajo habitual de repente no cabía en los límites de 5 horas. Y no hablamos de cargas de trabajo desmesuradas, sino de una generación de código bastante normal en un par de hilos.

Las quejas iniciales pintan un panorama desalentador: en el plan más caro, antes era difícil agotar el límite incluso con un uso activo, pero tras una reducción de 5 veces, la gente llega al tope casi de inmediato. Uno de los casos más reveladores: tras reiniciar por completo una sesión, un usuario envió unos 130k tokens, continuó un contexto anterior que había salido de la caché horaria y vio cómo se consumía casi instantáneamente un 5% de su límite de 5 horas.

Aquí tomo dos notas. Primero: esto no parece ser simplemente que “la gente lo está usando más”. Segundo: la sospecha de tokens basura al crear la caché suena plausible, porque ya se han discutido antes saltos similares en el contador.

El contexto externo también encaja. Después de finales de marzo, Anthropic retiró algunas de sus políticas más flexibles, incluidas las promociones con límites aumentados en horas de baja demanda, y comenzó a restringir la carga de forma mucho más notable en medio de la escasez de GPU. De ahí el doble golpe: por un lado, un endurecimiento real de los límites de uso (rate limits) y, por otro, un posible cálculo incorrecto de tokens o una lógica de caché de prompts deficiente.

Para quienes construyen integraciones de IA en el desarrollo, el problema no es abstracto. Cuando el límite no se consume por generación útil, sino por la mecánica interna de la caché o el reprocesamiento de un contexto largo, toda la economía del pipeline se vuelve poco fiable.

Impacto en el negocio y la automatización

Si estoy diseñando una solución de IA para un equipo de desarrollo, no puedo basarme en un “parece que es suficiente”. Necesito previsibilidad: cuánto cuesta una tarea, cuántas sesiones paralelas soporta el equipo, qué ocurre con las cadenas de agentes largas y cuán rápido se degrada el rendimiento bajo carga.

Y es aquí donde Claude Code se queda corto actualmente, especialmente para el uso intensivo. No porque el modelo se haya vuelto malo de repente, sino porque la capa de facturación y límites afecta más a la experiencia de usuario real que las propias capacidades del modelo. Cuando un desarrollador teme abrir un segundo hilo o continuar una sesión larga, la automatización con IA pasa de ser un acelerador a una lotería.

¿Quién gana? Aquellos con sesiones cortas, tareas simples y un stack de respaldo con varios proveedores. ¿Quién pierde? Los equipos acostumbrados a mantener un contexto de ingeniería largo, ejecutar ramas de investigación y construir agentes de codificación semiautónomos basados en una suscripción.

Ahora mismo, no apostaría por una suscripción a Claude como la única base para los procesos de ingeniería internos. Es mejor diseñar un enrutamiento: tareas cortas a una capa, contextos de código largos a otra y pipelines críticos a través de una API con control de costes separado y registro del consumo real de tokens. De lo contrario, un recálculo inesperado de la caché no solo rompe el presupuesto, sino también los plazos.

Lo más probable es que Anthropic se enfrente a una mezcla de dos problemas: falta de capacidad de inferencia y una implementación cuestionable de los límites para escenarios de codificación reales. Esto se puede superar, pero solo si la arquitectura no está atada desde el principio a un único canal de acceso y a una única y atractiva suscripción.

En Nahornyi AI Lab, precisamente analizamos estos cuellos de botella en la práctica: dónde una suscripción es adecuada para un prototipo y dónde se necesita una implementación de IA adecuada con enrutamiento de modelos, estrategia de caché y protección contra límites inesperados. Si su equipo de desarrollo o soporte ya tropieza con estas restricciones, podemos revisar su flujo de trabajo y construir una automatización de IA para que su equipo no dependa de las sorpresas de otros cada cinco horas.

Compartir este articulo