Online verfügbares TRM-Denkbelohnungsmodell: Endlich Quantifizierung der Inferenzqualität von großen Sprachmodellen

Die Schlussfolgerungsfähigkeiten großer Modelle werden immer stärker, aber wenn die Antwort richtig ist, ist der Denkprozess dann unbedingt gut?

Die Inferenzfähigkeit von Large Language Models wird immer stärker. Aber wenn die Antwort richtig ist, muss der Denkprozess auch gut sein?

Es ist wie bei einer Mathematikaufgabe, bei der zwei Schüler beide die richtige Lösung finden.

Der eine arbeitet mit sauberen Schritten, kompakten Ableitungen und einem klaren Gedankengang; der andere macht lange, irrelevante Ableitungen, überspringt wichtige Schritte und findet dennoch die richtige Antwort.

Wenn man nur das Ergebnis betrachtet, sind beide Lösungen richtig. Wenn man aber eine Lösung auswählen möchte, die sich besser zum Lernen eignet, ist es offensichtlich die des ersten Schülers.

Large Language Models stehen vor ähnlichen Problemen bei der Inferenz.

Vor der endgültigen Antwort erzeugt das Modell oft eine Reasoning Trace mit Tausenden oder sogar Zehntausenden von Tokens. Darin gibt es Explorationen, Reflexionen und Korrekturen, aber auch Wiederholungen, Sprünge und scheinbar vollständige, aber unhaltbare "Fälschungen".

Die meisten Bewertungen und Belohnungssignale betrachten jedoch nur, ob die endgültige Antwort richtig ist. Dadurch wird der Unterschied im "Denkprozess" verschleiert.

Was macht einen guten Denkprozess aus? Wie kann eine freie Inferenzkette stabil bewertet werden? Kann ein solches Bewertungssignal wiederum helfen, dass das Modell bessere Inferenzmethoden lernt?

Um dieses Problem anzugehen, hat ein Forschungsteam aus dem Shanghai Artificial Intelligence Laboratory, der Shanghai Jiao Tong University und der Chinese University of Hong Kong das TRM (Thinking Reward Model) vorgeschlagen:

Anstatt nur zu prüfen, ob das Large Language Model die "Antwort richtig hat", wird direkt der Inferenzprozess bewertet. Dadurch wird das "Gut-Denken" zu einer messbaren, trainierbaren und optimierbaren Fähigkeit.

Konkret hat das Team einen einheitlichen Rahmen vorgeschlagen: Das ME²-Prinzip wird verwendet, um die Inferenzqualität zu beschreiben, und die DAG-basierte paarweise Bewertung wird eingesetzt, um die Inferenzstruktur wiederherzustellen. Auf dieser Grundlage wird das Thinking Reward Model trainiert, um die "Inferenzqualität" von einem subjektiven Gefühl in ein wiederverwendbares Belohnungssignal umzuwandeln.

Warum reicht es nicht mehr, zu prüfen, ob die Antwort richtig ist?

Viele Bewertungen von Large Language Models in der Vergangenheit haben hauptsächlich darauf geachtet, ob die endgültige Antwort richtig ist. Bei Fragen- und Codeaufgaben ist diese Methode direkt: Richtig beantwortet, Punkte bekommen; falsch beantwortet, keine Punkte.

Aber für Inferenzmodelle wird ein wichtiges Problem übersehen, wenn man nur die Antwort betrachtet: Wie hat das Modell diese Antwort erhalten?

Beim richtigen Beantworten einer Aufgabe kann ein Modell möglicherweise Schritt für Schritt entlang der Hauptlinie vorgehen, während ein anderes die gleiche Idee wiederholt neu aufnimmt, viele ineffiziente Prüfungen durchführt und sogar falsche Schritte verwendet, um die richtige Schlussfolgerung zu stützen.

Diese ineffizienten Inferenzen erhöhen nicht nur die Generierungskosten, sondern machen das Modell auch anfälliger für Fehler, wenn sich die Aufgabenbedingungen ändern.

In der Trainingsphase des Reinforcement Learnings wird dieses Problem noch deutlicher. Wenn die Belohnung nur von der endgültigen Antwort abhängt, erhalten alle Inferenzketten, die die Aufgabe richtig beantworten, dasselbe Feedback. Aber neben der Antwort muss man noch weiter unterscheiden: Welche Inferenzkette ist klarer, kompakter und eignet sich besser für das Modell zum Lernen? Dies ist das Problem, auf das sich das TRM konzentriert.

Der Gesamtrahmen des TRM ist wie folgt: (a) Vorschlag des ME²-Prinzips, (b) Abstraktion der komplexen Inferenzstruktur durch ein DAG, (c) Training des Thinking Reward Models und seine Anwendung auf Test-Time Scaling und RL.

ME²-Prinzip: Was macht einen guten Denkprozess aus?

Um die Inferenzqualität zu bewerten, muss man zunächst klarstellen, was "gut" genau bedeutet.

Die Studie zerlegt die Inferenzqualität entlang zweier orthogonaler Achsen: In Bezug auf die Granularität in makro (Gesamtstruktur) und mikro (einzelner Schritt); in Bezug auf das Ziel in Effizienz (effizient) und Wirksamkeit (wirksam). Die Kombination dieser Kategorien ergibt vier Dimensionen:

-Makro-Effizienz: Ist die Gesamtstruktur effizient? Eine gute Inferenzkette folgt den notwendigen Zweigen und vermeidet es, dieselbe Idee wiederholt neu aufzunehmen oder zu viele ineffiziente Prüfungen durchzuführen.

-Makro-Wirksamkeit: Ist die Gesamtstruktur wirksam? Die Hauptlinie der Inferenz sollte immer auf das Problemziel ausgerichtet sein, die Beziehungen zwischen den Zweigen sollten klar sein, und die wichtigen Argumente sollten miteinander übereinstimmen.

-Mikro-Effizienz: Ist die Darstellung eines einzelnen Schritts einfach? Jeder Schritt sollte vorzugsweise eine klare Funktion haben, wie z.B. Berechnung, Überprüfung, Ausschluss oder Induktion. Wiederholungen, die die Schlussfolgerung nicht beeinflussen, sollten vermieden werden.

-Mikro-Wirksamkeit: Ist der Inhalt eines einzelnen Schritts richtig? Die lokalen Berechnungen, die Verwendung von Symbolen und die Schlussfolgerungen müssen miteinander konsistent sein. Man darf nicht falsche Schritte verwenden, um die richtige Antwort zu stützen.

Diese vier Dimensionen zerlegen die Frage, "Welche Inferenzkette ist besser", in annotierbare, vergleichbare und trainierbare Signale und bilden die Grundlage für den gesamten Bewertungs- und Optimierungsprozess.

△

DAG-basierte Bewertung: Strukturierung von freien Inferenzketten

Die Inferenzkette eines Modells ist normalerweise ein langer Text in natürlicher Sprache, der scheinbar in Reihenfolge verläuft. Die tatsächliche Inferenz muss jedoch nicht linear sein. Es kann sein, dass es zunächst eine Hauptlinie gibt, dann einige Zweige eröffnet, einige Möglichkeiten ausgeschlossen werden und schließlich die wirksamen Zweige wieder zusammengeführt werden.

Das Problem ist, dass es in langen Texten viele lokale Details gibt, die die wichtigen Struktursignale verdecken können. Wenn man die Inferenzstruktur nicht explizit herausarbeitet, ist es schwierig, die Modelle stabil zu unterscheiden.

Deshalb abstrahiert die Studie die freie Inferenzkette in ein gerichtetes azyklisches Graph (DAG). Konkret wird der ursprüngliche Text in eine Reihe von atomaren Schritten zerlegt, jeder Schritt wird als Knoten behandelt, und die Kanten werden gemäß den semantischen Abhängigkeiten verbunden. Auf diese Weise können die Progression (lineare Fortschritt), das Branching (Zweigexploration) und das Merging (Zweigzusammenführung) in der Inferenzkette klar dargestellt werden.

Die Studie abstrahiert jede beliebige Inferenzkette in ein gerichtetes azyklisches Graph (DAG) und teilt diesen Prozess in drei Schritte auf:

1. Schrittaufteilung: Zunächst wird grob nach Absätzen getrennt, dann werden die häufigsten Anfangswörter in vielen Trajektorien als stabilere Trennzeichen statistisch ermittelt, um konsistente, semantisch sinnvolle Schrittgrenzen zu erhalten. 2. Inferenzstrukturierung: Jeder Inferenzschritt wird in zeitlicher Reihenfolge durchlaufen, und ein Large Language Model wird verwendet, um seinen semantischen Elternknoten zuzuweisen. Schrittweise werden die Kanten aufgebaut. Anschließend werden vollständig lineare benachbarte Knoten zu Superknoten zusammengeführt, um ein kompaktes DAG zu erhalten, das die komplexen Strukturen wie Progression (lineare Fortschritt), Branching (Zweigexploration) und Merging (Zweigzusammenführung) klar darstellt. 3. Paarweise Bewertung: Basierend auf dem ME²-Prinzip wird eine semantische Abstraktion erstellt, und dann wird das Bewertungsmodell verwendet, um die relative Präferenz zwischen zwei Inferenzketten zu geben. Die beiden Granularitäten Makro und Mikro entsprechen verschiedenen Abstraktionsmethoden und decken die vier Dimensionen des ME²-Prinzips ab.

Das Bewertungsmodell muss nicht mehr nur auf einen langen Text schauen, sondern kann die Inferenzstruktur betrachten: Ist die Hauptlinie klar? Sind die Zweige notwendig? Sind die lokalen Schritte einfach und richtig? Die daraus resultierenden Urteile sind auch stabiler als die, die man direkt aus dem Originaltext zieht.

Thinking Reward Model: Inferenzqualität in ein wiederverwendbares Belohnungssignal umwandeln

Basierend auf dem obigen Bewertungsrahmen hat das Forschungsteam den TRM-Präferenzdatensatz erstellt. Für jede Aufgabe erzeugen die Forscher zunächst Kandidaten-Inferenzketten mit mehreren Open-Source-Inferenzmodellen. Dann werden die Trajektorien mit falschen Antworten durch einen Regelnprüfer ausgesiebt, und nur die Proben mit richtigen endgültigen Antworten werden behalten.

Somit verschiebt sich der Schwerpunkt des späteren Vergleichs von "Ob die Antwort richtig ist" zu "Welche Inferenzkette besser ist, wenn alle Antworten richtig sind".

Anschließend wird DeepSeek-V3.2 verwendet, um die DAGs in den vier Dimensionen des ME²-Prinzips paarweise zu bewerten. Um die Positionsabweichung zu reduzieren, wird die Bewertung in beiden Reihenfolgen wiederholt, und nur die stabilen und nicht unentschiedenen Präferenzlabels werden behalten. Am Ende erhält man 103.000 Trainings-Präferenzpaare + 1.500 Validierungs-Präferenzpaare, die den TRM-Präferenzdatensatz bilden.

Das TRM wird mit Llama-3.1-8B-Instruct initialisiert, und der Sprachmodellierungskopf wird durch einen skalaren Value-Kopf ersetzt. Nach dem Training auf dem TRM-Präferenzdatensatz gibt das TRM für jede Inferenzkette einen skalaren Score aus: Je höher der Score, desto besser entspricht die Inferenzkette der Definition des ME²-Prinzips für hochwertige Inferenzen.

Auf dem Validierungsdatensatz erreicht das TRM eine Genauigkeit von 88,6 %, was deutlich besser ist als die zweier repräsentativer PRM-Baseline-Modelle.

Erster Kernbefund: Antworten aus hochwertigen Inferenzketten sind zuverlässiger

Das TRM bewertet die Qualität der Inferenzkette, aber dieses Signal kann auch die Genauigkeit der endgültigen Antwort verbessern.

Beim Testen kann das TRM in der Best-of-N-Auswahl verwendet werden: Das Modell erzeugt mehrere Kandidaten-Inferenzketten für dieselbe Aufgabe, und dann wählt das TRM diejenige mit der höchsten Qualität aus. Die Experimente zeigen, dass mit zunehmendem N die von dem TRM ausgewählten Ergebnisse eine höhere endgültige Genauigkeit erzielen.

Zweiter Kernbefund: Als RL-Belohnung verbessert das Modell die Antwortgenauigkeit

In der Trainingsphase kann das TRM auch feinere Belohnungssignale für das Reinforcement Learning liefern.

Das traditionelle RLVR betrachtet normalerweise nur, ob die Antwort richtig ist. Nach der Hinzunahme des TRM kann das Modell auf der Grundlage der richtigen Antwort noch klarere und effizientere Inferenzmethoden lernen.

Konkret verwendet die Studie den GRPO-Algorithmus und kombiniert die verifizierbare Belohnung

mit der Denkbelohnung, die das TRM gibt