Skip to main content
Claudeprompt-engineeringcoding-agents

CLAUDE.MD, que hace que Claude se esfuerce más

Ha surgido un truco práctico para Claude: indicar explícitamente que su resultado será auditado por Codex hace que el modelo trabaje con más cuidado y evite atajos. Esto es clave para la automatización con IA, ya que este pequeño cambio mejora la calidad de los agentes de código sin cambiar de modelo.

Contexto Técnico

Lo que me llamó la atención no fue la broma de que «Claude se esforzará más», sino el mecanismo en sí. Se añade un marco simple a CLAUDE.MD: tu resultado será verificado por Codex. Y de repente, Claude empieza a tomar menos atajos, omite menos pasos en las pruebas y es más cuidadoso al completar la tarea.

Desde una perspectiva de ingeniería, esto es muy reconocible. Veo constantemente en la implementación de IA que el comportamiento de un modelo cambia no solo por una instrucción como «hazlo mejor», sino por su rol, los riesgos y la expectativa de una revisión. Cuando un agente entiende que su resultado no es final y pasará por una auditoría externa, suele elegir una trayectoria más conservadora.

En la discusión original, un detalle importante fue que todo esto funcionaba «en un contexto limpio», pero el autor también tenía un adaptador personalizado. Y aquí es donde pondría un gran asterisco. Esto no es una noticia del nivel «Anthropic ha lanzado oficialmente una nueva función», sino más bien una visión de campo nacida de una configuración real en torno al modelo.

Es decir, nuestro dato principal no proviene de la documentación de Anthropic ni de una nota de lanzamiento. Es la observación de un usuario sobre el comportamiento de un agente de código en su propia matriz experimental. Estamos en abril de 2026, y sinceramente lo presentaría no como una ley demostrada, sino como una hipótesis sólida que vale la pena probar en tu propio entorno.

¿Por qué podría funcionar este truco? Porque las LLM entienden bien la estructura social de una tarea. Si en el prompt del sistema no solo escribo «haz un trabajo de calidad», sino «tu código será revisado, los errores saldrán a la luz y tu solución se comparará con una alternativa», creo una presión para que sea completo y se autoverifique.

Y sí, la mención de Codex aquí no es mágica. Es muy probable que no funcione la marca, sino el simple hecho de que haya un auditor externo. Hoy es Codex, mañana otro agente, pasado mañana un bot de revisión interno. La esencia es que el modelo recibe un contexto de responsabilidad.

Qué cambia esto para el negocio y la automatización

Lo más interesante no empieza en los prompts, sino en la arquitectura. Si estoy construyendo automatización con IA para desarrollo, soporte o QA, ya no me basta con elegir el «mejor modelo». Pienso en capas: quién genera, quién revisa, quién debate, quién finaliza con pruebas.

Aquí es donde pequeños trucos como este realmente valen dinero. Un párrafo en el prompt del sistema puede eliminar algunas respuestas perezosas sin necesidad de mejorar el plan de suscripción o hacer un fine-tuning complejo. Para un negocio, a menudo es un mejor trato que simplemente lanzar más tokens y más agentes al problema.

Pero hay una contrapartida. Si te excedes con el «te revisarán, te compararán, no te equivoques», el agente puede volverse más lento, cauteloso y empezar a sobreexplicar lo obvio. Me he topado con esto muchas veces: la calidad parece haber mejorado, pero el rendimiento (throughput) cae tanto que toda la automatización se desinfla.

Por eso, probaría este patrón solo en escenarios medibles. Por ejemplo: el porcentaje de tareas donde Claude realmente ejecuta o sugiere pruebas; la proporción de casos extremos omitidos; el número de iteraciones hasta un PR funcional. Sin métricas, esto se convierte rápidamente en una bonita leyenda sobre ingeniería de prompts.

¿Quién gana? Los equipos que ya tienen agentes de código integrados en su pipeline y cuentan con su propia infraestructura. ¿Quién pierde? Aquellos que esperan que una frase en CLAUDE.MD reemplace de repente una integración de IA adecuada, la validación y el enrutamiento de tareas entre agentes.

En Nahornyi AI Lab, es exactamente así como descomponemos las cosas en capas: dónde se necesita un crítico externo, dónde basta con una autoverificación y dónde es mejor no dar autonomía al modelo en absoluto. Esto ya no se trata de un prompt mágico, sino de arquitectura de soluciones de IA, donde el comportamiento de un agente se basa en roles, verificaciones y el coste de un error.

Si tu agente de código escribe software pero a veces «ahorra esfuerzos» en los puntos más críticos, yo empezaría con este marco de auditoría externa y una prueba A/B en tus tareas. Y si no quieres adivinar por sensaciones, sino construir una automatización de IA funcional para tu proceso, en Nahornyi AI Lab te ayudaré a convertir estos experimentos en un sistema que realmente elimine la rutina, en lugar de crear otra capa de caos.

Compartir este articulo