Contexto técnico
Me interesé en este caso no por el drama en torno a las herramientas, sino por un patrón muy familiar: tan pronto como la automatización con IA en el desarrollo se vuelve demasiado verbosa, el contador de tokens se dispara y el control humano disminuye. Aquí, esto se ve casi bajo un microscopio.
El escenario es simple. La tarea es local: cambiar el guardado en un repositorio de Elasticsearch a la API masiva. El repositorio en sí tiene unas 500 líneas, más algo de código alrededor. Luego, Superpowers lo convierte en una especificación de 2700 líneas, con ejemplos de código, pruebas, preguntas, un ritual TDD y 14 commits en aproximadamente 2 horas.
Y aquí es donde yo también haría una pausa. No porque el TDD sea malo, sino porque revisar 2700 líneas para un cambio de tamaño mediano es, por decirlo suavemente, un fastidio. Formalmente, el agente hizo un gran trabajo; en la práctica, ahora estoy pagando no solo con tokens, sino también con la atención de mi equipo.
En el enfoque alternativo, que el usuario describió usando las habilidades de Matt Pocock y cambiando a Codex, el ritmo es diferente: un plan corto, una iteración corta, revisar el código final y discutir las partes poco claras con el agente. Personalmente, considero que este modo es más sostenible cuando necesitas mantener la arquitectura en tus manos, en lugar de aceptar otra caja negra cuidadosamente empaquetada.
Sí, desde fuera, parece más lento que lanzar una gran especificación e irse a tomar un café. Pero en la práctica, un contexto corto es casi siempre más barato, más predecible y se integra mejor en un proyecto real, donde el código ya ha acumulado historia, compromisos y peculiaridades.
Un punto importante aparte: no hay benchmarks directos aquí, y no pretendería que esto sea una verdad de laboratorio. Por ahora, son principalmente observaciones sólidas de los usuarios, pero coinciden bien con lo que veo en los pipelines de agentes reales.
¿Qué cambia esto para el negocio y la automatización?
Ganan los equipos que necesitan un desarrollo de soluciones de IA gestionado, no un 'piloto automático a cualquier precio': menos contexto, revisiones más rápidas, menor costo por ciclo. Esto es especialmente cierto donde las modificaciones frecuentes y seguras son más importantes que un agente demostrativamente autónomo.
Pierden los escenarios donde a un agente se le da demasiada libertad en tareas pequeñas. La costosa minuciosidad anula los beneficios, y una persona todavía tiene que verificar el resultado.
Lo formularía así: un enfoque TDD verboso es bueno cuando la tarea es realmente grande y necesita ser formalizada casi como un miniproyecto. Para el desarrollo de productos diario, las iteraciones compactas suelen ser simplemente más rentables.
En Nahornyi AI Lab, analizamos precisamente estos cuellos de botella en los equipos: dónde se necesita un agente, dónde es suficiente un buen ciclo con un contexto corto y dónde la arquitectura de IA ha comenzado a quemar el presupuesto sin resultados. Si tienes una historia similar con agentes caros y torpes, analicemos juntos tu proceso y construyamos una automatización de IA que se ajuste a tu flujo de trabajo real, no solo a una demostración elegante.