Contexto técnico
Me interesé en este debate no por el drama en los comentarios, sino porque este tipo de opiniones pueden fácilmente arruinar decisiones de implementación de IA. Una persona escribe: «5.5 es más tonto con las instrucciones», mientras que otra está encantada con sus textos. Suena a un compromiso entre disciplina y estilo, pero con GPT-5.5 no es tan simple.
Revisé los materiales oficiales de OpenAI. Allí presentan el modelo de manera totalmente opuesta: ejecución sólida de tareas, manejo preciso de herramientas y un enfoque en el "outcome-first prompting", donde el objetivo, las restricciones y el formato de la respuesta son más importantes que un largo guion paso a paso. Es decir, no veo ninguna confirmación pública de un intercambio degenerativo del tipo «obedece peor, pero escribe bonito».
Lo que realmente me llamó la atención fue la razón de la discrepancia en las percepciones. Se recomienda probar GPT-5.5 con prompts nuevos, no usar plantillas antiguas, y configurar por separado el `reasoning.effort`. Si alimentas al nuevo modelo con una instrucción antigua, diseñada para otro estilo de seguimiento, es muy posible que parezca «menos obediente», aunque el problema resida en la propia interfaz de comunicación.
Otro punto: el modelo tiene un contexto amplio, la API de Responses y un enfoque en el uso de herramientas. En sistemas así, casi nunca evalúo el «seguimiento de instrucciones» basándome en una única respuesta bonita en un chat. Observo si mantiene el formato, si llama a las herramientas correctas, si no pierde las restricciones en el vigésimo turno y cómo maneja entradas desordenadas. Ahí es donde se encuentra la verdad.
Impacto en el negocio y la automatización
Para las empresas, la conclusión es simple. Si necesitas un texto de marketing, el subjetivo «se ha vuelto más creativo» puede ser una ventaja. Si estás construyendo automatización con IA para soporte, gestión de documentos o ventas, la estabilidad en la ejecución del contrato es más importante que la vibra del texto: JSON, enrutamiento, llamadas a funciones, límites de políticas.
Ganan aquellos que prueban el modelo en sus propias tareas, no en base a impresiones generales de los chats. Pierden los equipos que eligen un modelo por emociones y luego se sorprenden de que su agente escriba de maravilla pero interrumpa el flujo de trabajo.
En estos casos, no discuto sobre gustos, sino que monto rápidamente un banco de pruebas práctico: el mismo escenario, varias versiones del modelo y métricas estrictas de errores y coste. Esto es exactamente lo que hacemos en Nahornyi AI Lab para clientes que necesitan una integración de IA sin sorpresas. Si tus procesos ya se topan con problemas de calidad en las respuestas o agentes inestables, analicémoslo con pruebas y construyamos una automatización de IA que funcione en producción, y no solo que se vea bien en la demo.