Claude está agotando sus límites de uso más rápido. Te explico por qué.

Anthropic efectivamente ha ajustado los límites de Claude en horas pico, y los usuarios intensivos lo han notado. Para las empresas, esto es crucial: el contexto de 1M, la memoria y los flujos de agentes ahora consumen la sesión más rápido, exigiendo una arquitectura de IA más cuidadosa y un mejor control de tokens.

¿Qué ha ajustado Anthropic exactamente en Claude?

En lugar de rumores, investigué en foros y comunicados de la propia Anthropic, y el panorama es claro: los límites en Claude.ai no han desaparecido en marzo de 2026, pero sí se han ajustado a la baja en horas pico. Hablamos de sesiones de 5 horas, no del sistema transparente de TPM (Tokens Por Minuto) al que muchos están acostumbrados en la API.

La ventana de máxima demanda está bien definida: días laborables, de 8 AM a 2 PM ET. En este horario, parte de los usuarios, sobre todo los Pro, han empezado a toparse con el límite mucho antes. La propia Anthropic dice que afecta a un 7% de su audiencia, pero si usas Claude Code, cadenas de agentes y diálogos largos, la probabilidad de estar en ese 7% es bastante alta.

No lo atribuiría todo a la 'avaricia de la plataforma'. Aquí coinciden varios factores.

Los flujos de trabajo con agentes en Claude Code realizan muchos pasos ocultos.
El contexto de 1M incita a mantener demasiada basura en la sesión.
La función de memoria añade otra capa constante de tokens.
En Claude.ai el límite se percibe como un recurso de sesión compartido, no como un coste claro por solicitud.

De ahí la extraña sensación de la gente: parece que trabajas 'como siempre', pero el límite se evapora mucho más rápido. Es especialmente molesto con Opus y en tareas donde el agente explora archivos, reformula pasos y ejecuta largos ciclos de razonamiento.

También hubo un bono temporal para las horas de baja demanda hasta el 28 de marzo, que duplicaba parcialmente el uso. Pero fue una promoción, no la nueva normalidad. Si lees esto después del 28 de marzo de 2026, tómalo como una señal: el régimen más generoso ha terminado y hay que vivir en una nueva realidad.

Por qué el contexto de 1M y la memoria cuestan más de lo que parece

Lo que más me preocupa no es el límite en sí, sino cómo la gente diseña su trabajo con el modelo. Un contexto de 1M suena fantástico, pero en la práctica, a menudo es solo un permiso para no limpiar lo que sobra.

Si en la sesión hay 150-200 mil tokens, cada nueva interacción se vuelve más cara. Y si además está activada la memoria, el modelo también recupera hechos guardados. Formalmente, es cómodo. En realidad, puedes tener una fuga silenciosa de presupuesto donde el contexto no parece enorme, pero la sesión se consume en un instante.

Lo diría de forma más contundente: un gran contexto sin disciplina casi siempre es peor que una arquitectura de soluciones de IA bien diseñada, con búferes, resumen y división de tareas por etapas.

Qué significa esto para las empresas y la automatización

Para proyectos personales, es una molestia. Para las empresas, es un problema de arquitectura.

Si tu automatización con IA depende de Claude.ai como una 'navaja suiza manual' para el equipo, los límites repentinos rompen el ritmo de trabajo. Un desarrollador o analista llega al tope, el agente se detiene y el proceso se queda colgado. Dentro de la empresa, no se ve como un problema de tarifa, sino como una caída de la productividad.

Ganan quienes ya separan los modos de uso. Mueven las tareas pesadas a la API, procesan por lotes, limpian el contexto, desactivan la memoria donde no es necesaria y no obligan a un solo modelo a gestionar todo el pipeline. Pierden quienes construyen su implementación de IA con la idea de que 'el modelo es listo, ya se las arreglará'.

En Nahornyi AI Lab lidiamos con esto a diario en la práctica: a veces basta con reescribir un prompt e introducir un resumen estricto cada N pasos, pero otras veces hay que rediseñar por completo la arquitectura de IA y mover las tareas pesadas de los agentes desde una suscripción de interfaz a un esquema de backend adecuado.

Lo que yo revisaría ahora mismo:

Desactivar la memoria en escenarios con alto consumo de tokens.
Revisar el tamaño real del contexto activo, no solo una estimación 'a ojo'.
Separar el trabajo interactivo del procesamiento en segundo plano.
Mover las ejecuciones pesadas fuera de las horas pico.
Incluir en el presupuesto un aumento de costes, aunque no se hayan anunciado nuevas tarifas.

Y sí, los rumores sobre futuras suscripciones de 400-500 dólares por ahora son solo eso, rumores. Pero la dirección está clara: cuanto más potentes sean los modelos y más largo el contexto, más caro será fingir que los tokens son infinitos.

Este análisis lo he escrito yo mismo, Vadim Nahornyi, en Nahornyi AI Lab. No me limito a repetir comunicados de prensa; diseño e implemento soluciones de IA para empresas de forma práctica, incluyendo integración de IA, pipelines de agentes y automatización con IA en equipos reales.

Si tu uso de Claude ya está topando con los límites o quieres construir una automatización con IA sin sorpresas en los costes, escríbeme. Analizaremos tu caso y juntos diseñaremos un sistema que funcione.

Compartir este articulo

Twitter/X LinkedIn Telegram

Claude está agotando sus límites de uso más rápido. Te explico por qué.

¿Qué ha ajustado Anthropic exactamente en Claude?

Por qué el contexto de 1M y la memoria cuestan más de lo que parece

Qué significa esto para las empresas y la automatización

Mas noticias

LFM2.5-8B-A1B: Cómo evitar bucles de razonamiento

Hay tuit de Altman, pero el lanzamiento aún no aparece