14B schlägt 671B: Microsoft rStar2-Agent übertrifft DeepSeek-R1 in mathematischer Deduktion

Wurde das 671B DeepSeek-R1 tatsächlich von einem 14B-Modell bei der mathematischen Inferenz übertroffen?

Heutzutage verfügen Large Language Models (LLMs) bereits über sehr starke Inferenzfähigkeiten, und der Schlüssel hierfür ist Test-Time Scaling.

Im Allgemeinen kann die Verlängerung der Chain of Thought (CoT) die "Denkzeit" verlängern und dadurch die Leistung erheblich verbessern, insbesondere wenn die Optimierung mit Large-Scale Reinforcement Learning und Verifiable Rewards (RLVR) erfolgt.

Bei schwierigen Problemen, die leichte Zwischenfehler aufweisen oder kreative Denkumbrüche erfordern, weisen längere CoTs jedoch immer noch grundlegende Einschränkungen auf. In diesen Fällen verlässt sich das Modell oft auf interne Selbstreflexion, die aber oft keine Fehler findet und auch keine Selbstkorrektur vornimmt, wenn die ursprüngliche Methode fehlerhaft ist.

Das Modell sollte daher nicht nur länger denken können, sondern auch "klüger" denken. Hierfür können fortgeschrittene kognitive Fähigkeiten eingeführt werden, damit das Modell autonom passende Tools nutzen, aus den Rückmeldungssignalen der Tool-Umgebung schließen, validieren und lernen kann.

Kürzlich hat ein Forschungsteam der Microsoft Research die Verwendung von Agentic Reinforcement Learning untersucht, um dieses Ziel zu erreichen. Das heißt, das Modell interagiert mit Tools in einer speziellen Tool-Umgebung und passt seine Inferenzmethode gemäß den erhaltenen Rückmeldungen an.

Das Ergebnis ihrer Untersuchung ist rStar2-Agent, eine leistungsstarke Methode des Agentic Reinforcement Learning. Mit dieser Methode hat das Microsoft-Team ein 14-Milliarden-Parameter-Inferenzmodell namens rStar2-Agent-14B trainiert. Dieses Modell erreicht Spitzenleistungen und ist mit oder sogar besser als das 671-Milliarden-Parameter-Modell DeepSeek-R1!

Diese Forschung hat in den sozialen Netzwerken breite Aufmerksamkeit erregt.

Im Folgenden werden wir uns kurz ansehen, wie Microsoft dieses Modell geschaffen hat, das mit einer kleinen Anzahl von Parametern Spitzenleistungen erzielen kann.

Titel der Studie: rStar2-Agent: Agentic Reasoning Technical Report

Link zur Studie: https://arxiv.org/pdf/2508.20722

Link zum Code: https://github.com/microsoft/rStar

Beschreibung der Umgebung und des Problems

Die in dieser Studie verwendete Umgebung ist ein Python-Programmierwerkzeug und ein Python-Interpreter.

Das Python-Programmierwerkzeug kann den Handlungsraum des Modells erweitern, sodass es Alternativen erkunden und Zwischenschritte validieren kann, um die interne Selbstreflexion zu ergänzen, wenn allein die längere CoT nicht ausreicht.

Allerdings ist es sehr schwierig, Agentic Reinforcement Learning in dieser Umgebung effektiv zu skalieren.

Zunächst kann die inhärente Komplexität des Programmierwerkzeugs und des Python-Interpreters Umgebungsrauschen in den Inferenzprozess einführen. Wenn das Modell unvermeidlich syntaktisch oder logisch fehlerhaften Code erzeugt, kann die daraus resultierende Umgebungsrückmeldung (z. B. Fehlermeldungen) dazu führen, dass das Modell wertvolle Token verschwendet, um die Fehler zu korrigieren, anstatt die Inferenz voranzutreiben. Leider basieren die aktuellen Reinforcement-Learning-Methoden hauptsächlich auf "Nur-Ergebnis-Belohnungen", was dieses Problem nur verschärft, da Trajektorien, bei denen die Zwischenaufrufe von Tools fehlschlagen, trotzdem eine positive Belohnung erhalten, solange die endgültige Antwort richtig ist. Das Modell akzeptiert dann Fehler als annehmbar und erzeugt lange und von geringer Qualität Inferenztrajektorien.

Zweitens sind für das Training von Large-Scale Agentic Reinforcement Learning hohe Anforderungen an die Infrastruktur gestellt. Ein einzelner Trainingsbatch kann Tausende von gleichzeitigen Tool-Aufrufen auslösen, was es äußerst herausfordernd macht, eine zuverlässige und reaktionsschnelle Codeausführungsumgebung aufzubauen.

Darüber hinaus verstärkt die Bereitstellung von Agenten, die mit der Umgebung interagieren, das Problem der ineffizienten Bereitstellung in Standard-Reinforcement-Learning-Systemen, was die gesamte Trainingsgeschwindigkeit erheblich verlangsamt.

Drei Innovationen von rStar2-Agent

Die von Microsoft vorgeschlagene rStar2-Agent enthält drei Schlüsselinnovationen.

Erstens hat das Team eine effiziente und zuverlässige Infrastruktur für Large-Scale Agentic Reinforcement Learning aufgebaut.

Sie haben eine Hochdurchsatz-Umgebung für unabhängigen Code erstellt, die 45.000 gleichzeitige Tool-Aufrufe verarbeiten kann und die durchschnittliche Ausführungsrückmeldung in nur 0,3 Sekunden liefern kann.

Um das Problem der ineffizienten Rollout-Leistung beim Reinforcement Learning zu lösen, haben sie einen Lastenausgleichs-Rollout-Scheduler eingeführt, der die Rollout-Anforderungen dynamisch gemäß der verfügbaren Key-Value-Cache-Kapazität auf der GPU verteilt, um die Rechenauslastung zu maximieren.

Selbst bei begrenzten GPU-Ressourcen kann diese Infrastruktur ein effizientes Reinforcement-Learning-Training ermöglichen. Mit 64 MI300X GPUs hat das Team das Training von rStar2-Agent-14B in nur einer Woche abgeschlossen.

Zweitens, um ein effektives Agentic Reinforcement Learning in der Code-Umgebung zu erreichen, hat das Team Group Relative Policy Optimization with Right Resampling (GRPO-RoC) vorgeschlagen, das GRPO mit einer Rollout-Strategie auf der Grundlage von Right Resampling (RoC) kombiniert, um das Umgebungsrauschen unter spärlichen und nur auf das Ergebnis bezogenen Belohnungsbedingungen zu reduzieren.

Konkret führt RoC zunächst ein Oversampling größerer Rollout-Gruppen durch und dann ein Downsampling auf die Standard-Batch-Größe. Positive Trajektorien werden gefiltert, sodass nur diejenigen mit der höchsten Qualität und den wenigsten Tool-verursachten Fehlern oder Formatproblemen behalten werden, während negative Trajektorien gleichmäßig downsampled werden.

Diese einfache und effektive asymmetrische Sampling-Methode behält verschiedene Fehlermuster als informationreiche negative Signale bei und betont gleichzeitig erfolgreiche Fälle höherer Qualität für die positive Überwachung.

Im Vergleich zu Methoden, die in der Belohnungsfunktion explizit Tool-Nutzungsfehler bestrafen, kann GRPO-RoC die Trainingsstabilität verbessern und das Risiko des Reward-Hackings vermeiden.

Durch das Lernen sauberer und höherwertiger positiver Trajektorien kann das Modell nicht nur die Nutzung des Python-Programmierwerkzeugs verbessern, sondern auch fortgeschrittene kognitive Fähigkeiten zeigen und in der echten Code-Umgebungsinteraktion effizienter und kompakter schließen.

Drittens hat das Team auch ein Trainingsschema vorgeschlagen, das ein 14-Milliarden-Parameter-Vorabtrainiertes Basis-Modell mit minimalem Rechenaufwand auf Spitzenniveau in der mathematischen Inferenz bringen kann.

Im Gegensatz zu früheren Studien (die vor dem Reinforcement Learning eine inferenzintensive Supervised Fine-Tuning (SFT) anwenden) beginnt das Team mit einer nicht-inferenzbasierten SFT-Phase, die nur zur Vermittlung allgemeiner Befehlseinhaltung, Tool-Nutzung und Formatierung dient, ohne die Inferenzfähigkeit zu stärken. Dies kann ein potenzielles Overfitting bei der SFT vermeiden und die durchschnittliche anfängliche Antwort kurz halten, sodass das Reinforcement Learning die Inferenzfähigkeit effektiver entwickeln kann und gleichzeitig die Vorabtrainingsfähigkeiten des Modells voll ausnutzen kann.

Dann führt das Team ein mehrstufiges Reinforcement-Learning-Training mit GRPO-RoC durch und erhöht allmählich die Schwierigkeit der Aufgaben und die maximale Trainingsdauer. Im Gegensatz zu früheren Reinforcement-Learning-Methoden, die die Rollout-Skalierung stark auf 16.000 → 48.000 oder sogar höher erweitern müssen, begrenzt das Team die Länge jeder Stufe auf einen kürzeren Bereich (8.000 → 12.000). Dies kann die Kosten für das Reinforcement Learning erheblich senken und effizientere Inferenzstrategien fördern.

Das Modell kann bereits nach 510 Reinforcement-Learning-Schritten schnell ein Spitzenniveau in der mathematischen Inferenz erreichen, was seine starke Fähigkeit und hervorragende Trainingsleistung zeigt.

Erstaunliche Ergebnisse

Schließlich haben sie mit der neuen Methode ein Modell trainiert und es rStar2-Agent-14B benannt. Obwohl es nur 14 Milliarden Parameter hat, erreicht es eine starke mathematische Inferenzleistung, die die von führenden Inferenzmodellen wie DeepSeek-R1 und Kimi k1.5 übertrifft.

Bemerkenswerterweise erreicht es auf der AIME24 eine Genauigkeit von 80,6 %, was 1,0 % höher als bei o3-mini (medium), 0,8 % höher als bei DeepSeek-R1 und 3,6 % höher als bei Claude Opus 4.0 (thinking) ist. Auf der AIME25 und der HMMT25 erreicht es 69,8 % bzw. 52,7 %, was seine stabile und konsistente Stärke zeigt.

Außerhalb der Mathematik kann es sich auch effektiv verallgemeinern, obwohl hier nur das Agentic Reinforcement Learning in der Mathematik für das Training verwendet wird.

Es performt besser als DeepSeek-V3 auf dem GPQA-Diamond Scientific Reasoning Benchmark, zeigt auch gute Ergebnisse bei der Agent-Tool-Nutzungsaufgabe von BFCL v3 und erzielt konkurrenzfähige Ergebnisse in allgemeinen Benchmarks wie IFEval und Arena-Hard.

Das Team hat auch erfolglose Versuche und Analysen berichtet und die Entdeckungen von fortgeschrittenen kognitiven Inferenzverhaltensweisen, die durch das Agentic Reinforcement Learning von rStar2-Agent ermöglicht werden, herv，orgehoben, wie z. B. die Reflexionstoken der Umgebungsrückmeldung, die eine effektivere Inferenz antreiben.

Weitere Analysen und Ablationsstudien finden Sie in der Originalstudie.

Dieser Artikel stammt aus dem WeChat-Account

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

14B besiegt 671B. Microsoft rStar2-Agent übertrifft DeepSeek-R1 bei der mathematischen Deduktion.

Beschreibung der Umgebung und des Problems

Drei Innovationen von rStar2-Agent

Erstaunliche Ergebnisse