Skip to main content
AI агентыMETRавтономность ИИ

Yo también subestimé el progreso de los agentes de IA

Ajeya Cotra revisó sus pronósticos sobre las capacidades de la IA tras los nuevos resultados de METR: los agentes pueden manejar tareas mucho más largas de lo esperado. Para las empresas es crucial, ya que la automatización con IA puede diseñarse para horas o días, aunque todavía no para semanas sin errores.

Contexto técnico

Me gustan estos textos no por el bombo, sino por el momento en que alguien dice honestamente: vale, he subestimado el ritmo del progreso. Esto es exactamente lo que ocurrió en el post de Ajeya Cotra del 5 de marzo de 2026. Reconsideró la cantidad de trabajo autónomo que los agentes modernos pueden realmente realizar, y para la implementación de la IA, esto ya no es una cuestión filosófica, sino de arquitectura.

Profundicé en las cifras, y esto es lo que me llamó la atención. Antes, la referencia era aproximadamente esta: un modelo de primer nivel como Claude Opus 4.5 mantenía un 'horizonte temporal' de unas 5 horas en tareas de ingeniería de METR, lo que significa que resolvía cerca de la mitad de las tareas que a un humano experto le llevarían 5 horas.

El nuevo cambio resultó ser incómodamente grande para quienes hacían pronósticos conservadores. Según los datos que cita Cotra, Opus 4.6 ya superaba 14 de 19 tareas de más de 8 horas, y el intervalo de confianza para su horizonte se amplió a un rango de 5.3 a 66 horas. Esto no significa que el agente se haya vuelto de repente 'fiable durante tres días'. Significa que nuestras antiguas herramientas de medición están llegando a su límite.

Y aquí es donde empieza lo interesante. Fuera de los benchmarks pulcros, los agentes ya estaban gestionando proyectos de varias semanas como navegadores, compiladores o grandes migraciones de código, pero no de forma totalmente autónoma. Lo veo también en casos de campo: cuanto mejor es la especificación y más definidos están los instrumentos, más lejos llega el agente sin intervención; cuantos más cabos sueltos, más rápido cae en desviaciones, bucles y errores tontos por acumulación.

Qué cambia esto para el negocio y la automatización

Primero: ya no diseñaría la automatización con IA como un 'chat al lado del empleado'. Para ciertos procesos, es más sensato construir largos manuales de ejecución de horas, con puntos de control, reversiones y verificación de artefactos.

Segundo: ganan los equipos con tareas bien formalizadas. Pierden los que intentan entregarle a un agente un entorno de producción caótico y requisitos ambiguos, esperando magia sin una integración de IA adecuada en un stack de registros, pruebas y permisos.

Tercero: el coste de un error ahora es más importante que el coste de los tokens. Si un agente trabaja 12 horas y al final llega a un estado incorrecto, el ahorro se convierte fácilmente en una depuración costosa.

En Nahornyi AI Lab abordamos precisamente esta capa compleja: dónde dar autonomía a un agente, dónde poner una red de seguridad y dónde no dejarlo actuar sin un humano. Si sus procesos ya se están topando con revisiones manuales y ciclos de ingeniería lentos, Vadym Nahornyi y yo podemos ayudar a construir una automatización con IA que realmente alivie a su equipo, en lugar de producir un caos bien presentado.

Anteriormente, discutimos la emergente 'crisis del código subprime', donde depender excesivamente de la IA para el desarrollo puede degradar la calidad del código e inflar el costo total de propiedad. Esto sirve como un claro recordatorio de los desafíos impredecibles que a veces surgen al integrar la IA en los flujos de trabajo establecidos de la industria.

Compartir este articulo