Skip to main content
RLHFpost-trainingLLM

Por qué el RL post-entrenamiento a veces hace que los modelos “se atonten”

El RL post-entrenamiento en modelos de lenguaje a menudo mejora las métricas objetivo pero corre el riesgo de estrechar el comportamiento fuera del escenario previsto. Para las empresas es crítico: la implementación de IA puede ofrecer gran automatización en tareas principales, pero romper casos raros y reducir la robustez del sistema. Es importante evaluar los compromisos.

Contexto técnico

A menudo veo la misma reacción: sale un nuevo post-entrenamiento, el modelo mejora en demos y evaluaciones, así que debe ser más inteligente en general. Lamentablemente, no funciona así. El RL post-entrenamiento casi siempre empuja al modelo hacia donde crece una recompensa específica, no hacia mantener una amplia universalidad.

En términos prácticos, este es el costo habitual de una implementación de IA orientada a KPI claros. Optimizo el sistema para seguimiento de instrucciones, tasa de preferencia, precisión matemática o estilo de respuesta seguro, y el modelo comienza a vivir más ajustado dentro de ese corredor. En escenarios populares, esto da mejoras. En tareas raras, extrañas o no contempladas, aparecen pequeñas regresiones.

He indagado en estos pipelines muchas veces, y los efectos secundarios más comunes son conocidos: caza de recompensas, colapso de entropía, sobreajuste a métricas proxy. El modelo aprende a hacer no lo que yo pretendía, sino lo que mejor paga la función de recompensa. Por eso puede verse más ordenado, más seguro y más obediente, pero a la vez ligeramente peor para manejar giros inesperados en las consultas.

Es especialmente divertido verlo en modelos de razonamiento. Puedo aumentar la corrección paso a paso en matemáticas o código, pero simultáneamente degradar la calibración, la diversidad de soluciones o el comportamiento fuera de un formato de respuesta estrecho. No es una catástrofe, más bien muerte por mil cortes, pero en producción estos detalles acaban saliendo a la luz.

Impacto en negocios y automatización

Para la automatización con IA, la conclusión es simple: no confundas la mejora en puntuaciones de referencia con mayor fiabilidad del sistema. Si tu agente hace soporte, ventas o búsqueda interna, puede volverse mejor en el 80% de los diálogos frecuentes y peor en los costosos casos raros donde un error realmente cuesta dinero.

El segundo punto es sobre arquitectura. No pondría el mismo post-entrenamiento en todos los roles a la vez. En algunos sitios se necesita una variante RL pulida, y en otros es mejor dejar un modelo base más amplio y rodearlo con reglas, validación y enrutamiento.

Estos son precisamente los compromisos que en Nahornyi AI Lab solemos desglosar para los clientes: dónde es apropiada una integración de IA agresiva, y dónde es mejor no asfixiar al modelo por una métrica brillante. Si tu automatización se ha vuelto demasiado “correcta” pero falla en casos reales, revisemos tu pipeline y construyamos un desarrollo de soluciones de IA sin esta trampa.

Anteriormente exploramos Simple Self-Distillation, un método que mejora la generación de código sin RL complejo ni verificadores. Este enfoque cobra especial relevancia al ver cómo el RL post-entrenamiento puede degradar el rendimiento en tareas menos comunes.

Compartir este articulo