StartseiteArtikel

Die Hong Kong University of Science and Technology hat einen neuen Algorithmus vorgeschlagen, der das Inferenzparadigma von großen Modellen revolutioniert: Die Bewertung von Zufallsstrategien ist tatsächlich ein "gottgleiches Verfahren" für die mathematische Inferenz von LLMs.

机器之心2025-10-31 16:26
"Vereinfachen statt Komplizieren" ist der Schlüssel zur Leistungssteigerung.

Der erste Autor des Papers, He Haoran, ist ein Doktorand an der Hong Kong University of Science and Technology. Seine Forschungsgebiete umfassen unter anderem verstärktes Lernen und Basis Modelle. Sein Forschungsziel ist es, Superintelligenz durch Erfahrung und Belohnung zu stimulieren. Der Mit-Erste-Autor, Ye Yuxiao, ist ein erster Jahrgangsdoktorand an der Hong Kong University of Science and Technology. Der Korrespondenzautor ist Pan Ling, ein Assistentprofessor an der Fakultät für Elektronik und Informatik sowie an der Fakultät für Informatik und Informatikingenieurwesen der Hong Kong University of Science and Technology.

Bei der mathematischen Inferenzaufgabe von Large Language Models (LLM) ist das auf verifizierbaren Belohnungen basierende verstärkte Lernen (RLVR) zu einem wichtigen Mittel zur Verbesserung der Inferenzfähigkeit der Modelle geworden. Dennoch verlassen sich die gängigen Methoden wie PPO, GRPO usw. immer noch auf die Lernziele der Strategiegradientenaktualisierung, die für traditionelle RL-Szenarien entwickelt wurden. Im Wesentlichen können sie durch die Strategieiteration (policy improvement) beschrieben werden, d. h. einen kontinuierlichen Zyklus aus Strategiebewertung (policy evaluation) und Strategieverbesserung (policy improvement). Diese Methoden sind oft mit Problemen wie instabilem Training, Verlust der Vielfalt und komplexer Parameteranpassung konfrontiert.

Existiert es dann für die LLM-Inferenzaufgabe eine einfachere und wesentlichere Lösung?

Das Team der Hong Kong University of Science and Technology in Zusammenarbeit mit Step and Kuaishou hat eine überraschende Antwort gegeben: Es reicht aus, die Wertbewertung einer völlig zufälligen Strategie durchzuführen, um den optimalen Inferenzpfad zu finden. Daraufhin haben sie ROVER (Random Policy Valuation for Diverse Reasoning) vorgeschlagen, um das traditionelle Paradigma mit einem minimalistischen Ansatz zu überwinden und den Strategieiterationszyklus (policy improvement) der traditionellen verstärkten Lerninferenz zu überspringen.

ROVER übertrifft nicht nur die bestehenden Methoden bei mehreren mathematischen Inferenzbenchmarks deutlich, sondern erreicht auch eine hochwertige und vielfältige Inferenzgenerierung mit "Minimalismus".

Derzeit sind das Paper, der Code und das Modell alle Open Source.

  • Paper-Adresse: https://arxiv.org/abs/2509.24981
  • Paper-Code: https://github.com/tinnerhrhe/ROVER

Bei hochschwierigen Aufgaben wie AIME24, AIME25 und HMMT25 hat ROVER im Vergleich zu traditionellen Methoden die pass@1 (+8,2) und pass@256 (+16,8) erheblich verbessert und in verschiedenen Vielfaltmaßen einen neuen Höhepunkt erreicht (+17,6%). Darüber hinaus muss ROVER weder ein zusätzliches Wertnetzwerk (value network) pflegen noch ein Referenzmodell (reference model) zur Berechnung der KL warten, was es leichter macht.

Die "Schmerzpunkte" des traditionellen verstärkten Lernens: Komplexe Iteration und hohe Kosten

Bei der Optimierung der LLM-Inferenz können die gängigen Methoden (wie PPO, GRPO) durch die Generalisierte Strategieiteration (Generalized Policy Iteration) beschrieben werden - die wiederholte Ausführung von "Strategiebewertung (Berechnung des aktuellen Strategiewerts, z. B. Schätzung der Advantage-Funktion advantage)" und "Strategieverbesserung (Aktualisierung der Strategie [mathematische Formel])". Obwohl diese Methoden die Leistung verbessern können, gibt es Kernschmerzpunkte:

  • Schlechte Trainingsstabilität: Das Optimierungsziel ist "nicht stationär", und das Modell neigt zum Absturz. Jüngste Arbeiten haben komplexe Techniken wie KL-Regularisierungskontrolle, Zuschneiden der Wichtigkeitssampling und Entropiemonitoring hinzugefügt. Diese "Patches" machen das Training riskant, und bei geringster Unachtsamkeit kann es zu einem "Entropiekollaps" kommen (starker Rückgang der Strategievielfalt und Einengung auf einen einzigen Inferenzpfad).
  • PPO muss ein unabhängiges Wertnetzwerk zur Vorhersage des Zustandswerts warten und die Strategieiteration wiederholen: Methoden wie GRPO müssen auch ein Referenzmodell (reference model) zur Berechnung der KL warten. Dieser "kapitalintensive" Ansatz erhöht die Rechenkosten der RL-Optimierung.
  • Verlust der Inferenzvielfalt: Das Opfer der Exploration für die Qualität führt zu einer Sättigung der pass@k-Leistung. Traditionelle verstärkte Lernmethoden auf der Grundlage der Maximierung der Belohnung führen dazu, dass das Modell übermäßig auf die einmalige Inferenzgenauigkeit abzielt und die Strategieexplorationsfähigkeit opfert - das Modell erzeugt nur wenige Inferenzpfade und opfert die pass@k-Fähigkeit (die Fähigkeit, bei mehreren Inferenzen mehr mögliche Lösungen abzudecken).

Die "Minimalistische Revolution" von ROVER: Der Q-Wert einer zufälligen Strategie reicht aus, um optimale Entscheidungen zu treffen

Das Forschungs team hat zunächst festgestellt, dass die LLM-Inferenzaufgabe als Markovsche Entscheidungsaufgabe mit endlicher Zeitspanne (MDP) modelliert werden kann, die die folgenden Schlüsselmerkmale aufweist:

  • Bestimmte Zustandsübergänge;
  • Baumstruktur (jeder Zustand hat einen eindeutigen Elternknoten, und es gibt keine disjunkten Teilbäume);
  • Binäre sparse Belohnungen (richtig / falsch).

Dies unterscheidet sich deutlich von den komplexen Einstellungen wie zufälligen Zustandsübergängen, zyklischen Graphenstrukturen und Zwischenbelohnungen, die in traditionellen RL-Aufgaben (wie Atari-Spielen, Roboterkontrolle) häufig vorkommen.

"Verwenden wir zu komplexe Werkzeuge, um ein strukturell einfacheres Problem zu lösen?" - Dies war der Ausgangspunkt der ROVER-Forschung.

In dieser einfachen Struktur hat das Forschungs team einen umwerfenden Schlussfolgerung bewiesen: Der Q-Wert einer gleichmäßigen zufälligen Strategie zeigt direkt auf die optimale Strategie.

Angenommen, die Umgebung ist ein MDP mit endlicher Zeitspanne, einer baumförmigen Zustandsraum und binären Belohnungen.

 ist eine gleichmäßige zufällige Strategie (die Wahrscheinlichkeit für die Auswahl jeder Aktion ist 1/|A|).

 ist ihr Q-Wert. Dann ist die Greedy-Strategie (wie unten gezeigt) die optimale Strategie!

Der Beweis ist intuitiv: In einer Baumstruktur, wenn in einem Teilbaum einer Aktion

eine richtige Lösung existiert, dann ist 

; andernfalls ist 

Deshalb führt die Greedy-Auswahl der Aktion mit dem größten

Wert zwangsläufig zu einem Pfad, der die richtige Lösung enthält.

Daher kann der Strategielernprozess auf die folgende Form vereinfacht werden.

ROVER-Algorithmusablauf: Drei Schritte, minimalistisch, ohne Iteration

(1) Q-Wertschätzung:

ROVER berechnet den

Wert von Zustands-Aktionspaaren unter einer gleichmäßigen zufälligen Strategie über die verallgemeinerte Bellman-Gleichung. Daher wird die Gleichung durch den Mittelwertoperator ausgedrückt:

 ist die Belohnung, s' ist der neue Zustand nach der Ausführung der Aktion a, und V ist der Aktionsraum.

(2) Strategieaufbau:

Obwohl die Greedy-Auswahl die Optimalität gewährleisten kann, kann sie die Vielfalt verlieren. Daher führt ROVER eine Softmax-Sampling basierend auf dem

Wert ein:

Dabei ist

der Temperaturkoeffizient, der das Maß der Exploration steuert. Dieser Ansatz behält sowohl die Priorität der hoch