Yo también subestimé el progreso de los agentes de IA

Ajeya Cotra revisó sus pronósticos sobre las capacidades de la IA tras los nuevos resultados de METR: los agentes pueden manejar tareas mucho más largas de lo esperado. Para las empresas es crucial, ya que la automatización con IA puede diseñarse para horas o días, aunque todavía no para semanas sin errores.

Contexto técnico

Me gustan estos textos no por el bombo, sino por el momento en que alguien dice honestamente: vale, he subestimado el ritmo del progreso. Esto es exactamente lo que ocurrió en el post de Ajeya Cotra del 5 de marzo de 2026. Reconsideró la cantidad de trabajo autónomo que los agentes modernos pueden realmente realizar, y para la implementación de la IA, esto ya no es una cuestión filosófica, sino de arquitectura.

Profundicé en las cifras, y esto es lo que me llamó la atención. Antes, la referencia era aproximadamente esta: un modelo de primer nivel como Claude Opus 4.5 mantenía un 'horizonte temporal' de unas 5 horas en tareas de ingeniería de METR, lo que significa que resolvía cerca de la mitad de las tareas que a un humano experto le llevarían 5 horas.

El nuevo cambio resultó ser incómodamente grande para quienes hacían pronósticos conservadores. Según los datos que cita Cotra, Opus 4.6 ya superaba 14 de 19 tareas de más de 8 horas, y el intervalo de confianza para su horizonte se amplió a un rango de 5.3 a 66 horas. Esto no significa que el agente se haya vuelto de repente 'fiable durante tres días'. Significa que nuestras antiguas herramientas de medición están llegando a su límite.

Y aquí es donde empieza lo interesante. Fuera de los benchmarks pulcros, los agentes ya estaban gestionando proyectos de varias semanas como navegadores, compiladores o grandes migraciones de código, pero no de forma totalmente autónoma. Lo veo también en casos de campo: cuanto mejor es la especificación y más definidos están los instrumentos, más lejos llega el agente sin intervención; cuantos más cabos sueltos, más rápido cae en desviaciones, bucles y errores tontos por acumulación.

Qué cambia esto para el negocio y la automatización

Primero: ya no diseñaría la automatización con IA como un 'chat al lado del empleado'. Para ciertos procesos, es más sensato construir largos manuales de ejecución de horas, con puntos de control, reversiones y verificación de artefactos.

Segundo: ganan los equipos con tareas bien formalizadas. Pierden los que intentan entregarle a un agente un entorno de producción caótico y requisitos ambiguos, esperando magia sin una integración de IA adecuada en un stack de registros, pruebas y permisos.

Tercero: el coste de un error ahora es más importante que el coste de los tokens. Si un agente trabaja 12 horas y al final llega a un estado incorrecto, el ahorro se convierte fácilmente en una depuración costosa.

En Nahornyi AI Lab abordamos precisamente esta capa compleja: dónde dar autonomía a un agente, dónde poner una red de seguridad y dónde no dejarlo actuar sin un humano. Si sus procesos ya se están topando con revisiones manuales y ciclos de ingeniería lentos, Vadym Nahornyi y yo podemos ayudar a construir una automatización con IA que realmente alivie a su equipo, en lugar de producir un caos bien presentado.

Anteriormente, discutimos la emergente 'crisis del código subprime', donde depender excesivamente de la IA para el desarrollo puede degradar la calidad del código e inflar el costo total de propiedad. Esto sirve como un claro recordatorio de los desafíos impredecibles que a veces surgen al integrar la IA en los flujos de trabajo establecidos de la industria.

Compartir este articulo

Twitter/X LinkedIn Telegram

Yo también subestimé el progreso de los agentes de IA

Contexto técnico

Qué cambia esto para el negocio y la automatización

Mas noticias

Gemma 4 acelera la inferencia con predicción multi-token

Codex toma la delantera tras su última actualización