Revolutionäre Nachbearbeitung von Großen Sprachmodellen: Chen Danqis Team schlägt "Reinforcement Learning basierend auf Modellbelohnungsgedanken" (RLMT) vor

New breakthrough in AI "general chat"!

Im täglichen Leben ordnen Menschen immer zuerst ihre Gedanken, bevor sie sich an Aufgaben wie das Schreiben von E-Mails, das Entwerfen von Gliederungen oder das Planen von Mahlzeiten machen. Diese Fähigkeit zur "tiefgehenden Argumentation" wird von Daniel Kahneman, Preisträger des Nobelpreises für Ökonomie und Psychologe, als "System-2-Denken" (system 2 thinking) bezeichnet und ist ein Kernmerkmal der menschlichen Intelligenz.

Obwohl die verstärkte Lernmethode mit überprüfbaren Belohnungen (RLVR) die Argumentationsfähigkeit von großen Sprachmodellen (LLM) durch die Verwendung von regelbasierten Belohnungen in überprüfbaren Bereichen wie Mathematik und Code verbessert hat, bleibt ihre Generalisierungsfähigkeit bei offenen Aufgaben begrenzt.

In einer neuesten Studie hat das Team von Assistentprofessorin Danqi Chen von der Princeton University einen Durchbruch erzielt und die Argumentationsfähigkeit aus überprüfbaren Bereichen auf allgemeine Chat-Szenarien übertragen.

Beim Methodenansatz haben sie den Rahmen der "Verstärkten Lernmethode basierend auf modellspezifischen Belohnungsgedanken" (RLMT) entwickelt. Dadurch wird das LLM dazu gebracht, vor der Antwort eine lange Denkkette (CoT) zu generieren und diese dann durch eine auf Präferenzen basierende Belohnungsfunktion im Rahmen eines online RL-Verfahrens zu optimieren.

Nach der Beschreibung in der Studie übertrifft das mit RLMT trainierte 8B-Modell GPT-4o in Chat- und kreativen Schreibaufgaben und ist mit Claude-3.7-Sonnet (Thinking) vergleichbar. Gleichzeitig übertrifft das auf RLMT basierende, mit nur 7.000 Prompts trainierte Basis-Modell Llama-3.1-8B das Llama-3.1-8B-Instruct-Modell, das nach einem komplexen mehrstufigen Prozess mit über 25 Millionen Beispielen trainiert wurde.

Link zur Studie: https://arxiv.org/abs/2509.20357

Das Forschungsteam hat erklärt, dass die Ergebnisse dazu führen werden, dass man die Nachbearbeitungspipeline für Sprachmodelle neu bewerten wird, und hat aufgerufen, dass zukünftige Forschungen die Denkfähigkeit von Modellen umfassender verstehen und anwenden sollten.

RLMT: Ein Trainingsrahmen, der zwei Paradigmen vereint

Um die Innovation des RLMT-Rahmens zu verstehen, muss man zunächst die beiden Hauptprobleme bei der gegenwärtigen Trainingspraxis von Sprachmodellen kennen:

Einerseits kann die verstärkte Lernmethode basierend auf menschlichem Feedback (RLHF) die Präferenzen von Menschen berücksichtigen, behandelt aber die Ausgabe des Modells als eine Einheit und bietet keine explizite Argumentationsführung.

Andererseits kann die verstärkte Lernmethode mit überprüfbaren Belohnungen (RLVR) zwar durch regelbasierte Belohnungen in Bereichen wie Mathematik und Code das Modell dazu bringen, lange Denkketten zu generieren, hat aber in der Praxis bei allgemeinen Argumentationsproblemen und Chat-Tests eine eingeschränkte Generalisierungsfähigkeit und ist schwierig auf offene Chat-Szenarien ohne eindeutige "richtige Antworten" zu übertragen.

Der RLMT-Rahmen behält das Muster von RLVR bei, zunächst eine Argumentationsspur zu generieren und dann das Ergebnis auszugeben und verwendet auch die auf menschlichen Präferenzen basierende Belohnungsfunktion von RLHF, damit das Modell auch bei offenen Aufgaben lernen kann, zu "denken".

Genauer gesagt erfordert der RLMT-Rahmen, dass das Sprachmodell vor der endgültigen Antwort zunächst eine detaillierte Argumentationsspur generiert und diese dann im Rahmen eines online RL-Verfahrens wie dem GRPO-Algorithmus durch eine auf Präferenzen basierende Belohnungsfunktion bewertet und optimiert wird.

Abbildung | Durch die verstärkte Lernmethode und die Belohnungsfunktion kann das Sprachmodell auf der Grundlage langer Denkketten verschiedene allgemeine Benutzerprompts verarbeiten. Im Vergleich zu RLHF ermöglicht RLMT dem Modell, zu denken und erweitert RLVR auf breitere, offene Aufgaben.

Abbildung | Beispielhafte Argumentationsspuren, die von einem durch RLMT trainierten LM für offene Abfragen generiert wurden.

Um dieses Ziel zu erreichen, hat das Team drei Schlüsselpunkte sorgfältig geplant:

Beim Auswahlschritt des Trainingsalgorithmus hat das Team drei gängige gleichzeitige Strategien der tiefen verstärkten Lernmethode, nämlich DPO, PPO und GRPO, getestet. Es wurde festgestellt, dass das beste Modell mit dem GRPO-Algorithmus trainiert wurde, aber auch wenn andere Algorithmen wie DPO oder PPO verwendet werden, kann RLMT die traditionelle RLHF übertreffen. Die Leistung aller Modelle in allen Einstellungen war besser als die des Referenzmodells.

Beim Schritt der Belohnungsfunktion hat das Team das Skywork-v1-Llama-3.1-8B-v0.2-Modell ausgewählt, das sowohl in Belohnungstests als auch in nachgelagerten Anwendungen hervorragende Leistung gezeigt hat. Spätere Experimente haben gezeigt, dass eine starke Belohnungsfunktion für RLMT von entscheidender Bedeutung ist. Die Stärke der Belohnungsfunktion beeinflusst die Leistungsobergrenze, aber RLMT ist in allen Fällen besser als RLHF. Dies zeigt, dass die "Denkfähigkeit" des Modells nicht von einer bestimmten Belohnungsfunktion abhängt.

Beim Schritt des Aufbaus der Prompt-Bibliothek hat das Team Datensätze mit einer großen Anzahl von Mathematikaufgaben und "Jailbreak"-Prompts verworfen und stattdessen die WildChat-IF-Untermenge von Tülu 3 ausgewählt. Dies sind 7.500 echte Benutzerdialog-Prompts, die aus der WildChat-Plattform ausgewählt wurden und allgemeine Szenarien wie alltägliche Chats und kreatives Schreiben abdecken und somit besser den tatsächlichen Anwendungsanforderungen entsprechen.

Zusätzlich unterstützt RLMT zwei flexible Trainingsmodi. Es kann entweder durch eine überwachte Feineinstellung (SFT) "geheizt" werden, indem mit Gemini 2.5 Flash oder GPT-4.1-mini Prompt-Antwort-Paare mit Argumentationsspuren generiert werden; oder es kann direkt auf ein Basis-Modell angewendet werden, das noch nicht nachtrainiert wurde, d.h. im Null-Trainingsmodus, wobei nur durch einen festen Befehlspräfix das Denkverhalten gesteuert wird.

Experimentelle Überprüfung: Kleinere Modelle können größere übertreffen, sogar ohne Vor-Training

Um die Wirksamkeit von RLMT zu überprüfen, hat das Team 40 Trainingseinheiten an den Basis- und Befehlsversionen der beiden Modellfamilien Llama-3.1-8B und Qwen-2.5-7B durchgeführt, die sieben Arten von Tests wie Chat, kreatives Schreiben und Wissensfragen abdecken. Ein traditionelles RLHF-Modell ohne Argumentationsspur wurde als Vergleichsgruppe verwendet.

Die Ergebnisse haben die Forscher überrascht. Das RLMT-Modell hat in allen Aufgaben deutlich besser abgeschnitten. Das durch RLMT trainierte Denkmodell hat in allen Tests durchschnittlich 1,5 bis 4 Punkte besser als das nicht-denkende Modell abgeschnitten. Im Kern-Chat-Test war der Unterschied am deutlichsten, mit einem durchschnittlichen Punktedifferential von 3 bis 8 Punkten. Darüber hinaus haben diese Modelle in der Regel bessere Ergebnisse bei kreativen Schreibaufgaben und Tatsachenfragen erzielt.

Tabelle | Testergebnisse der GRPO-Modelle, die auf Llama-3.1-8B und Qwen2.5-7B basieren, in den "geheizten" und Null-Trainings-Settings.

Was noch bemerkenswerter ist, haben kleinere Modelle eine stärkere Leistung als größere Modelle gezeigt. Das Llama-3.1-8B-Instruct-RLMT-Modell hat auf der WildBench-Testplattform 50,4 Punkte erzielt, was nicht nur Modelle mit fast zehnmal so vielen Parametern wie Llama-3.1-70B-Instruct und Qwen2.5-72B-Instruct, sondern sogar GPT-4o übertrifft.

Tabelle | Vergleich von Llama-3.1-8B-Instruct RLMT mit starken Open-Source- und Closed-Source-Modellen, einschließlich GPT-4o und Claude -3.

Selbst wenn der komplexe SFT-Schritt übersprungen wird, verbessert RLMT das Basis-Modell weiterhin deutlich. Nehmen wir das Llama-3.1-8B-Modell als Beispiel. Das Null-Trainings-RLMT-Modell Llama-3.1-8B-RLMT-Zero hat im Chat-Test einen durchschnittlichen Punktestand von 15,6 erreicht, was 5,5 Punkte höher ist als das Llama-3.1-8B-Instruct-Modell, das nach einem mehrstufigen Feineinstellungsprozess mit über 25 Millionen Beispielen trainiert wurde. Das Qwen2.5-7B-RLMT-Zero-Modell hat sogar das Qwen2.5-7B-Instruct-Modell direkt übertroffen.

Tabelle | Ergebnisse der DPO/PPO-Modelle in den "geheizten" und Null-Trainings-Settings.

Ablations-Experimente haben weiterhin gezeigt, dass die drei Schlüsselfaktoren für den Erfolg von RLMT: die Qualität der Prompts, die Stärke der Belohnungsfunktion und die Argumentationsspur - unentbehrlich sind. Modelle, die mit echten Dialog-Prompts trainiert wurden, haben 5 bis 7 Punkte besser abgeschnitten als Modelle, die mit einfachen Prompts oder Prompts mit einer großen Anzahl von Mathematikaufgaben trainiert wurden. Eine starke Belohnungsfunktion kann die Chat-Fähigkeit des Modells verbessern, während die Leistung in anderen Aufgaben erhalten bleibt. Auch wenn eine schwache Belohnungsfunktion die Gesamtleistung verringert, ist RLMT immer noch besser als RLHF. Dies zeigt, dass der Wert der "Denkfähigkeit" des Modells nicht von einer bestimmten Belohnungsfunktion abhängt.

Tabelle | Ablations-Experimente für das GRPO-Immediate-Mixed-Modell, die SFT-Datenquelle und die Belohnungsfunktion.

Das Modell lernt, klüger zu denken

Durch qualitative und quantitative Analysen hat das Team festgestellt, dass RLMT nicht nur die Leistung des Modells verbessert, sondern auch seine "Denkweise" grundlegend verändert hat.

Abbildung | Links: Direkter Vergleich der Siegquoten der SFT- und GRPO-Modelle auf Merkmals-Ebene; Rechts: Beispiel für das Denkverhalten

Was den Denkstil betrifft, ist die Planung des SFT-Modells eher wie eine "lineare Liste". Nachdem es eine Aufgabe erhalten hat, teilt es diese zunächst in Kapitel und Unterkapitel auf und arbeitet sie schrittweise ab. Das RLMT-Modell zeigt dagegen ein komplexeres Denkmuster, das dem menschlichen Denken ähnlicher ist: Es listet zunächst sorgfältig die Aufgabenbedingungen und die zentralen Teilthemen auf, gruppiert dann die losen Ideen nach Themen und optimiert schließlich die Details iterativ. Besonders bemerkenswert ist, dass das RLMT-Modell auch "zurückdenkt". In der späten Planungsphase wird der frühere Inhalt zurückgeholt und angepasst, z.B. werden frühere Punkte kreuzreferenziert, um die logische Kohärenz zu verbess

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Um die Nachbearbeitung von Großen Sprachmodellen zu revolutionieren, hat das Team von Chen Danqi die "Reinforcement Learning basierend auf Modellbelohnungsgedanken" (RLMT) vorgeschlagen.

RLMT: Ein Trainingsrahmen, der zwei Paradigmen vereint

Experimentelle Überprüfung: Kleinere Modelle können größere übertreffen, sogar ohne Vor-Training

Das Modell lernt, klüger zu denken