Kann RL einen "Prüfungsvorhersage-Experten" trainieren? Die Vielfaltskrise und das katastrophale Vergessen beim Feinabstimmen von Modellen lösen
Warum neigen große Modelle nach RL eher dazu, sich "immer einseitiger zu entwickeln"? Angesichts der vielfältigen Verbesserungsansätze mag die Antwort nicht allzu kompliziert sein: Versuchen Sie zunächst, den KL-Term zu ändern.
In den letzten Jahren ist das Reinforcement Learning mit verifizierbarem Reward (Reinforcement Learning with Verifiable Reward, RLVR) zu einem wichtigen Weg zur Verbesserung der Inferenzfähigkeit großer Sprachmodelle geworden.
Von der mathematischen Lösung über die Codegenerierung bis zur SQL-Inferenz zeigen zahlreiche Studien, dass RL die Erfolgsrate des Modells in Szenarien mit einmaliger Antwort deutlich verbessern kann.
Dennoch bleibt ein Schlüsselphänomen unzureichend erklärt: Warum sinkt bei vielen Modellen, die durch RL feingestellt wurden, der Pass@k-Wert, wenn mehrere Versuche erlaubt sind, obwohl der Pass@1-Wert gestiegen ist?
Dies deutet darauf hin, dass das Modell möglicherweise besser darin ist, "einmal die richtige Antwort zu treffen", aber die ursprünglich reichen Lösungswege und den Raum der Kandidatenlösungen verloren hat. Darüber hinaus geht dieses Phänomen oft mit katastrophischem Vergessen (Catastrophic Forgetting) und einem Rückgang der Fähigkeit zur Generalisierung über verschiedene Domänen hinweg einher.
Bisherige Methoden konzentrieren sich in der Regel auf die Belohnungsgestaltung, die Sampling-Strategie oder die Entropie-Regulierung. Das Forschungs-Team hat jedoch festgestellt, dass ein grundlegendes und wichtiges Problem lange Zeit vernachlässigt wurde: Wie sollte der Divergenz-Term im RL-Ziel eigentlich gewählt werden?
Um dieses Problem anzugehen, hat ein gemeinsames Forschungs-Team aus Fudan-Universität, Infinite Light-Year, Shanghai Institute for Science and Intelligence (im Folgenden SISI) und Shanghai Chuangzhi College sich auf den lange Zeit vernachlässigten KL-Divergenz-Term konzentriert und dieses Problem aus der Perspektive der Divergenzauswahl gelöst. Die zugehörigen Forschungsergebnisse wurden von der ICLR 2026 akzeptiert.
Titel der Studie: The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward
Link zur Studie: https://arxiv.org/abs/2509.07430
Link zum Code: https://github.com/seamoke/DPH-RL
Li Long, Doktorand an der Fudan-Universität und Praktikant bei Infinite Light-Year, und Zhou Yujian, Doktorand an der Fudan-Universität und Shanghai Chuangzhi College, sind die gemeinsamen Erstautoren. Qu Chao, Forscher an der Fudan-Universität und AI-Wissenschaftler am Shanghai Institute for Science and Intelligence, ist der Korrespondenzautor.
Das Dilemma der Divergenzauswahl: Die Kosten von Reverse-KL und fehlender Einschränkung
Bei den meisten RL-Nach-Trainingsmethoden ist es üblich, Reverse-KL zu verwenden oder die Divergenzeinschränkung direkt zu entfernen. Beide Optionen weisen jedoch deutliche Mängel auf:
Reverse-KL ist im Wesentlichen mode-seeking und ermutigt die Strategie, sich auf wenige Muster mit hoher Wahrscheinlichkeit zu konzentrieren;
Das Fehlen des Divergenz-Terms bedeutet, dass das Modell während des Trainings keine explizite Schutzmechanismus für die ursprüngliche Wissensverteilung hat.
Beide Einstellungen führen dazu, dass das Modell sich zunehmend auf wenige "vertraute Antworten" konzentriert, was wiederum zu einem Rückgang des Pass@k-Werts, dem Vergessen vorhandener Fähigkeiten und einer Schwächung der Fähigkeit zur Generalisierung über verschiedene Aufgaben hinweg führt. Formaler ausgedrückt lässt sich das traditionelle RLVR wie folgt zusammenfassen:
Dabei ist πθ die aktuelle Strategie und πref die Referenzstrategie (in der Regel das Initialmodell oder das SFT-Modell). Der Kern der Frage ist: Wenn die Divergenzauswahl hier unangemessen ist, wird der zweite Teil nicht länger ein "Schutzmechanismus", sondern eher ein "Diversitätskompressor".
Wenn man das Basis-Modell als eine "Wissensverteilung" ansieht, die bereits über viel Wissen und verschiedene Lösungen verfügt, sollte das Ziel des RL-Feintrainings eigentlich darin bestehen, die bestehenden Fähigkeiten zu bewahren und die Aufgabenleistung weiter zu verbessern.
In der Realität verhalten sich jedoch viele RL-Methoden eher so, als würden sie immer wieder wenige Trajektorien mit hohem Reward verstärken - das Modell neigt sich allmählich zu ein oder zwei Lösungen, die am leichtesten belohnt werden, und lässt andere ebenfalls effektive, aber seltener auftretende Pfade fallen.
Das Forschungs-Team hat ein interessantes Experiment durchgeführt: Durch SFT hat das Modell verschiedene Antwortstile gelernt, und man kann anhand des Präfixes erkennen, welchen Stil das Modell verwendet hat; nach dem Standard-GRPO-Training hat das Modell jedoch fast nur noch einen Stil beibehalten.
Das Forschungs-Team ist daher der Meinung, dass das, was in RLVR wirklich gelöst werden muss, nicht nur "wie man stärker lernt", sondern auch: wie man die ursprüngliche Diversität des Modells bewahrt, während man die Belohnung optimiert.
Methode: Die Divergenz von einem "Einschränkungsterm" in einen "Diversitätsschutzmechanismus" umgestalten
Basierend auf diesen Beobachtungen hat das Team DPH-RL (Diversity-Preserving Hybrid RL) vorgeschlagen. Der Kerngedanke dieser Arbeit ist:
Die Divergenz sollte nicht nur ein zusätzlicher Regularisierungsterm während des Trainings sein, sondern als Mechanismus zur aktiven Schutz der Modell-Diversität neu gestaltet werden.
Konkret wird anstelle des traditionellen Reverse-KL eine Divergenz mit mass-covering-Eigenschaften eingeführt
, beispielsweise:
Im Gegensatz zu Reverse-KL, das dazu neigt, sich auf ein einziges Muster zu konzentrieren, ermutigt diese Art von Divergenz die neue Strategie, weiterhin die verschiedenen Lösungen in der Referenzstrategie abzudecken. Mit anderen Worten, es zwingt das Modell nicht, "nur den besten Pfad zu merken", sondern erinnert es daran: "Du kannst weiterhin stärker werden, aber vergiss nicht, was du ursprünglich gelernt hast."
Mechanistisch betrachtet kann die Methode dieser Studie als ein Rehearsal-Mechanismus (Wiederholungsmechanismus) verstanden werden: Das Modell bezieht sich während des Trainings kontinuierlich auf die Verteilung der Initialstrategie, um die ursprüngliche Wissensabdeckung zu bewahren und eine übermäßige Kontraktion während des Reinforcement Learnings zu vermeiden.
Nehmen wir als Beispiel die Forward-KL:
Die Erwartung hier wird an der Referenzstrategie πref genommen. Solange die Referenzstrategie einige sinnvolle Lösungen abgedeckt hat, darf die neue Strategie πθ deren Wahrscheinlichkeit nicht leicht auf nahe Null drücken. Aus diesem Grund neigt die Forward-KL stärker zur mass-covering und eignet sich besser als ein "Diversitätsschutzmittel".
Darüber hinaus führt die Studie die JS-Divergenz als eine stabilere und symmetrischere Alternative ein. Wenn wir definieren:
, dann kann die entsprechende Generierungsfunktion wie folgt geschrieben werden:
. Dadurch erhält man eine glattere Art der Verteilungsbeschränkung.
Darüber hinaus ist DPH-RL bei der Implementierung effizienter. Die Autoren berechnen die f-Divergenz auf der Grundlage der Generatorfunktion und müssen nur von der Initial-πref vorab samplen, ohne ein Online-Referenzmodell während des Trainings zu pflegen.
Dies macht die Methode im Hinblick auf die Trainingskosten freundlicher und eignet sie sich besser für reale Szenarien des Massen-Nach-Trainings. Bei der konkreten Durchführung des Trainings wendet DPH-RL nicht einheitlich dieselbe Beschränkung auf alle Stichproben an, sondern teilt die Daten zunächst in zwei Teile auf:
Explorationsmenge Dexp: Für schwierige Stichproben, die das Modell noch nicht beherrscht, wird keine KL-Strafe hinzugefügt,
sodass das Modell bei schwierigen Stichproben aggressiver nach Lösungen mit hohem Reward sucht. Hier wird das Standard-PPO-Clip-Ziel verwendet:
Nahezu perfekte Menge Dpef: Für Stichproben, die das Modell bereits weitgehend beherrscht, wird πref aus Dpef gesampelt, und die Diversität bei korrekten Stichproben wird mithilfe der f-Divergenz aufrechterhalten. Anschaulicher ausgedrückt strebt das Modell bei diesen Stichproben nicht mehr danach, "höhere Belohnungen zu erhalten", sondern versucht, sich möglichst wenig von der Verteilung der bisher guten Verhaltensweisen abzuweichen. Die allgemeine Form lautet:
Daher lässt sich der gesamte Trainingsvorgang besser als "fallbezogene Berechnung" beschreiben:
Mit anderen Worten: Anstatt "Explorations-Term + Erhaltungs-Term" auf jede Stichprobe zu addieren, wird zunächst entschieden, ob die Stichprobe zu Dexp oder Dpef gehört, und dann wird der entsprechende Verlust berechnet.
Eine bessere Divergenzauswahl kann gleichzeitig Leistungserhöhung, Diversitätserhaltung und Generalisierungsfähigkeit gewährleisten
Experimentelle Einstellung
Die Studie verwendet Llama3.1-8b als Experimentmodell und trainiert nur auf dem BIRD-Datensatz. Die OOD-Generalisierungsfähigkeit wird auf den Datensätzen BIRD, Spider und mathematischen Aufgaben getestet.