Contexto técnico
Me gustan estos textos no por el bombo, sino por el momento en que alguien dice honestamente: vale, he subestimado el ritmo del progreso. Esto es exactamente lo que ocurrió en el post de Ajeya Cotra del 5 de marzo de 2026. Reconsideró la cantidad de trabajo autónomo que los agentes modernos pueden realmente realizar, y para la implementación de la IA, esto ya no es una cuestión filosófica, sino de arquitectura.
Profundicé en las cifras, y esto es lo que me llamó la atención. Antes, la referencia era aproximadamente esta: un modelo de primer nivel como Claude Opus 4.5 mantenía un 'horizonte temporal' de unas 5 horas en tareas de ingeniería de METR, lo que significa que resolvía cerca de la mitad de las tareas que a un humano experto le llevarían 5 horas.
El nuevo cambio resultó ser incómodamente grande para quienes hacían pronósticos conservadores. Según los datos que cita Cotra, Opus 4.6 ya superaba 14 de 19 tareas de más de 8 horas, y el intervalo de confianza para su horizonte se amplió a un rango de 5.3 a 66 horas. Esto no significa que el agente se haya vuelto de repente 'fiable durante tres días'. Significa que nuestras antiguas herramientas de medición están llegando a su límite.
Y aquí es donde empieza lo interesante. Fuera de los benchmarks pulcros, los agentes ya estaban gestionando proyectos de varias semanas como navegadores, compiladores o grandes migraciones de código, pero no de forma totalmente autónoma. Lo veo también en casos de campo: cuanto mejor es la especificación y más definidos están los instrumentos, más lejos llega el agente sin intervención; cuantos más cabos sueltos, más rápido cae en desviaciones, bucles y errores tontos por acumulación.
Qué cambia esto para el negocio y la automatización
Primero: ya no diseñaría la automatización con IA como un 'chat al lado del empleado'. Para ciertos procesos, es más sensato construir largos manuales de ejecución de horas, con puntos de control, reversiones y verificación de artefactos.
Segundo: ganan los equipos con tareas bien formalizadas. Pierden los que intentan entregarle a un agente un entorno de producción caótico y requisitos ambiguos, esperando magia sin una integración de IA adecuada en un stack de registros, pruebas y permisos.
Tercero: el coste de un error ahora es más importante que el coste de los tokens. Si un agente trabaja 12 horas y al final llega a un estado incorrecto, el ahorro se convierte fácilmente en una depuración costosa.
En Nahornyi AI Lab abordamos precisamente esta capa compleja: dónde dar autonomía a un agente, dónde poner una red de seguridad y dónde no dejarlo actuar sin un humano. Si sus procesos ya se están topando con revisiones manuales y ciclos de ingeniería lentos, Vadym Nahornyi y yo podemos ayudar a construir una automatización con IA que realmente alivie a su equipo, en lugar de producir un caos bien presentado.