Skip to main content
RLHFpost-trainingLLM

Warum RL Post-Training Modelle stellenweise „verdummt“

RL Post-Training bei Sprachmodellen verbessert oft die Zielmetriken, birgt aber das Risiko, das Verhalten außerhalb des Zielszenarios einzuengen. Für Unternehmen ist dies kritisch: KI-Implementierung kann auf Hauptaufgaben großartige Automatisierung liefern, aber seltene Fälle brechen und die Systemrobustheit verringern. Es ist wichtig, die Kompromisse sorgfältig zu bewerten.

Technischer Kontext

Ich sehe oft dieselbe Reaktion: Ein neues Post-Training erscheint, das Modell wird in Demos und Benchmarks besser, also muss es insgesamt intelligenter sein. Leider funktioniert das so nicht. RL Post-Training verschiebt das Modell fast immer dorthin, wo eine bestimmte Belohnung steigt, und nicht dorthin, wo eine breite Universalität erhalten bleibt.

Praktisch ausgedrückt ist das der übliche Preis für eine KI-Implementierung unter klaren KPIs. Ich optimiere das System auf Instruction-Following, Preference-Win-Rate, mathematische Genauigkeit oder einen sicheren Antwortstil, und das Modell beginnt, enger innerhalb dieses Korridors zu leben. In gängigen Szenarien bringt das Verbesserungen. Bei seltenen, seltsamen oder nicht berücksichtigten Aufgaben treten kleine Rückschritte auf.

Ich habe mich mehrfach in solche Pipelines eingearbeitet, und die häufigsten Nebenwirkungen sind bekannt: Reward Hacking, Entropiekollaps, Überanpassung an Proxy-Metriken. Das Modell lernt, nicht das zu tun, was ich beabsichtigt habe, sondern das, was durch die Belohnungsfunktion besser honoriert wird. Daher kann es ordentlicher, selbstbewusster und gehorsamer wirken, dabei aber unerwartete Wendungen einer Anfrage etwas schlechter bewältigen.

Besonders amüsant zeigt sich das bei Reasoning-Modellen. Ich kann die schrittweise Korrektheit in Mathematik oder Code verbessern, aber gleichzeitig die Kalibrierung, die Lösungsvielfalt oder das Verhalten außerhalb eines engen Antwortformats verschlechtern. Keine Katastrophe, eher ein Tod durch tausend Schnitte, aber im Produktivbetrieb kommen genau diese Kleinigkeiten dann zum Vorschein.

Auswirkungen auf Geschäft und Automatisierung

Für die KI-Automatisierung ist die Schlussfolgerung einfach: Verwechseln Sie Benchmark-Steigerungen nicht mit erhöhter Systemzuverlässigkeit. Wenn Ihr Agent Support, Vertrieb oder interne Suche übernimmt, kann er in 80 % der häufigen Dialoge besser werden und in teuren seltenen Fällen schlechter, wo Fehler tatsächlich Geld kosten.

Der zweite Punkt betrifft die Architektur. Ich würde nicht dasselbe Post-Training für alle Rollen gleichzeitig anwenden. An manchen Stellen braucht man eine polierte RL-Variante, an anderen ist es besser, ein breiteres Basismodell zu belassen und es mit Regeln, Validierung und Routing zu umgeben.

Genau diese Kompromisse legen wir bei Nahornyi AI Lab normalerweise für unsere Kunden offen: wo eine aggressive KI-Integration angebracht ist und wo man das Modell besser nicht für eine glänzende Metrik ersticken sollte. Wenn Ihre Automatisierung bereits zu „korrekt“ geworden ist, aber bei echten Fällen versagt, lassen Sie uns Ihren Pipeline ansehen und eine KI-Lösungsentwicklung ohne diese Falle aufbauen.

Wir haben zuvor die Methode Simple Self-Distillation untersucht, die die Codegenerierung ohne komplexes RL und Verifizierer verbessert. Dieser Ansatz wird besonders relevant, wenn wir sehen, wie RL Post-Training die Leistung bei weniger häufigen Aufgaben verschlechtern kann.

Diesen Artikel teilen