Kann das GRPO von DeepSeek zum Absturz des Modells führen? Schauen Sie sich das neue Paradigma GSPO von Qwen3 an.
Es ist allgemein bekannt, dass das Training von großen Sprachmodellen normalerweise in zwei Phasen aufgeteilt wird. Die erste Phase ist die „Prä-Trainingsphase“. Die Entwickler trainieren das Modell mit einem großen Text-Datensatz, damit es lernt, das nächste Wort in einem Satz vorherzusagen. Die zweite Phase ist die „Nach-Trainingsphase“, deren Ziel es ist, das Modell zu lehren, menschliche Anweisungen besser zu verstehen und auszuführen.
Die Nach-Trainingsphase bei LLMs scheint eine besondere Form des Reinforcement Learnings zu sein. Die Reinforcement Learning (RL)-Algorithmen für das Feinabstimmen von großen Sprachmodellen (LLMs) entwickeln sich kontinuierlich entlang eines klaren Evolutionspfads.
Anfangs entwickelte OpenAI eine Technologie namens Reinforcement Learning mit menschlichem Feedback (RLHF), um ChatGPT zu verbessern. Das Herzstück von RLHF besteht darin, dass menschliche Annotatoren die verschiedenen Antworten des Modells bewerten und die beste Antwort als Trainingsreferenz auswählen. Dieser Prozess ist zwar effektiv, aber auch zeitaufwändig, teuer und abhängig von Menschenkraft. Normalerweise wird dafür ein kleiner, aber professioneller Datensatz-Annotierungsteam benötigt.
Die wichtige Innovation von DeepSeek besteht darin, diesen Schritt mit RL-Technologie zu automatisieren. Der Algorithmus stützt sich nicht mehr auf die manuelle Bewertung einzelner Antworten, sondern lässt das Modell während des Explorationsprozesses durch das Erhalten von „Belohnungssignalen“ selbständig das richtige Verhalten lernen. Dadurch werden die Kosten deutlich gesenkt, die Effizienz erhöht und schließlich kann eine hohe Leistung mit niedrigen Kosten erzielt werden.
OpenAI hat beim Training von ChatGPT Proximal Policy Optimization (PPO) eingesetzt.
Das DeepSeek-Team hingegen ist der Meinung, dass die Schätzung des Wertes in einer Gruppe von Stichproben effektiver ist. Daher haben sie den Group Relative Policy Optimization (GRPO)-Algorithmus vorgeschlagen, der auch die Kerntechnologie in DeepSeek-R1 ist und das DeepSeek-R1-Modell glänzen lässt.
Vergleich von GPRO und PPO, entnommen aus der DeepSeekMath-Publikation.
Als Qwen3 vor einigen Monaten erstmals vorgestellt wurde, war die Leistung seines Flaggschiffmodells bereits mit der von Top-Modellen wie DeepSeek-R1, o3-mini und Gemini 2.5 Pro vergleichbar. Darüber hinaus umfasst die Qwen3-Modellreihe sowohl MoE-Modelle als auch dichte Modelle, und jedes Modell hat viele verschiedene Versionen.
In den letzten Tagen wird die Qwen3-Modellreihe ständig weiterentwickelt. Beispielsweise hat das Qwen3-235B-A22B-Instruct-2507-FP8 in vielen Tests wie Wissensmathematik, Programmierung, Anpassung an menschliche Präferenzen und Agent-Fähigkeiten hervorragende Ergebnisse erzielt und sogar Top-Open-Source-Modelle wie Kimi-K2 und DeepSeek-V3 sowie führende Closed-Source-Modelle wie Claude-Opus4-Non-thinking übertroffen.
Kürzlich hat das Qwen-Team eine Publikation über seinen Nach-Trainingsalgorithmus veröffentlicht, die anscheinend die Kerntechnikdetails des Erfolgs des Qwen3-Modells aufdeckt.
Titel der Publikation: Group Sequence Policy Optimization
Link zur Publikation: https://huggingface.co/papers/2507.18071
Link zum Blog: https://qwenlm.github.io/blog/gspo/
Gestern hat das Startup NetMind.AI, gegründet von Alumnis der Tsinghua-Universität, einen Blogbeitrag mit dem Titel „Qwen Team Proposes GSPO for Qwen3, Claims DeepSeek's GRPO is Ill-Posed“ veröffentlicht, in dem das GSPO-Algorithmus, den das Qwen-Team für das Qwen3-Modell vorgeschlagen hat, ausführlich vorgestellt und analysiert wird.
Link zum Blog: https://blog.netmind.ai/article/Qwen_Team_Proposes_GSPO_for_Qwen3%2C_Claims_DeepSeek's_GRPO_is_Ill-Posed
Neue Forschungen von Qwen zeigen, dass beim Training von großen Sprachmodellen mit GRPO ernsthafte Stabilitätsprobleme auftreten, die oft zu einem irreversiblen Zusammenbruch des Modells führen. Sie sind der Meinung, dass die GPRO-Methode von DeepSeek einige ernsthafte Probleme aufweist:
Das Anwenden von Importance Sampling auf jeder Token-Ebene führt in langen Sequenzen dazu, dass eine hohe Varianz akkumuliert wird, was zu Instabilität beim Training führt.
Dieses Problem ist besonders gravierend bei Mixture-of-Experts (MoE)-Modellen, da die Änderungen der Token-Ebene-Routing die Instabilität verstärken.
Um dieses Problem zu lindern, muss der Trainingsablauf basierend auf GRPO normalerweise auf zusätzliche Strategien zurückgreifen, wie beispielsweise Routing Replay.
Das Qwen-Team behauptet daher, dass das Token-Level-Importance Sampling von GRPO kein stabiles Training erreichen kann und dass sein Optimierungsziel „krankhaft (ill-posed)“ ist.
Um diese Probleme zu lösen und sein neuestes Qwen3-Modellreihe zu trainieren, hat das Qwen-Team einen neuen Reinforcement Learning-Algorithmus vorgeschlagen – Group Sequence Policy Optimization (GSPO).
Das grundlegende Problem von GRPO:
Die Instabilität von „Tokenweise Importance Sampling“
Das Qwen-Team weist darauf hin, dass die Instabilität von GRPO auf die fehlerhafte Verwendung von Token-Level-Importance Sampling-Gewichten zurückzuführen ist. Beim Reinforcement Learning wird Importance Sampling verwendet, um die Differenz zwischen der Verhaltensstrategie (d.h. der Strategie, die zum Sammeln von Trainingsdaten verwendet wird) und der Zielstrategie (der Strategie, die derzeit optimiert wird) auszugleichen.
Wenn die beiden Strategien nicht übereinstimmen, gibt Importance Sampling den vorhandenen Datensatz-Samples Gewichte, damit sie besser die aktuelle Zielstrategie repräsentieren, die optimiert werden soll. Dadurch wird die Stabilität und Effektivität des Trainings verbessert.
Beim Training von großen Sprachmodellen (LLMs) wird beim Reinforcement Learning oft die Antwort, die von einer alten Strategie generiert wurde, wiederverwendet, um Rechenressourcen zu sparen. Dies ist ein typischer „Off-Policy“-Trainingsszenario. Importance Sampling wird verwendet, um die Auswirkungen dieser Strategie-Unstimmigkeit zu lindern und den Trainingsablauf zu stabilisieren.
GRPO wendet jedoch die Importance Sampling-Gewichte auf jedes einzelne Token an, anstatt auf die gesamte generierte Sequenz. Diese Vorgehensweise führt zu einer signifikanten Varianz und verursacht bei der Generierung von langen Sequenzen „Fehlerakkumulation“ und „Instabilität beim Training“.
Formell berechnet GRPO die Importance-Gewichte für jeden einzelnen Token-Generierungsschritt separat:
Das Qwen-Team weist darauf hin, dass die Anwendung solcher Importance-Gewichte im Trainingsziel aufgrund der unabhängigen Berechnung des Verhältnisses jedes Tokens zu einer Akkumulation hoher Varianz führt, die die Gradientenstabilität zerstört und schließlich zum Zusammenbruch des Modells führt.
Gleichzeitig führt diese Vorgehensweise zu einem Rauschen mit hoher Varianz im Trainingsgradienten, insbesondere bei langen Sequenzen, wo sich dieses Problem akkumuliert. Wenn ein „Clip-Mechanismus“ vorhanden ist, wird dieses Instabilitätsproblem noch verstärkt.
Experimentelle Beweise des Qwen-Teams
Das Qwen-Team hat seine theoretische Analyse mit experimentellen Beweisen bestätigt, wie in der Abbildung gezeigt.
In allen dargestellten Experimentenszenarien hat der neu vorgeschlagene Algorithmus GSPO eine höhere TrainingsEffizienz als GRPO gezeigt. Bei der CodeForces-Aufgabe konvergierte die Endpunktzahl von GRPO unter 2000 Punkten, während GSPO mit zunehmender Trainingsrechenleistung ständig bessere Ergebnisse erzielte und somit eine stärkere „Skalierbarkeit“ aufwies.
Vergleich der Trainingskurven von GSPO und GRPO
Die Lösung von Qwen:
„Sequenz-Level-Importance Sampling“
Wie löst GSPO die oben genannten Probleme?
Wie der Name schon sagt, liegt der Kern von GSPO darin, das Importance Sampling von der Token-Ebene auf die Sequenz-Ebene zu verlagern. Das Importance-Verhältnis wird auf der Grundlage der Likelihood der gesamten Sequenz berechnet:
Dieser Designansatz der Sampling-Gewichte lindert auf natürliche Weise das Problem der Akkumulation der Tokenweise-Varianz und verbessert somit deutlich die Stabilität des Trainingsablaufs.
Es ist zu beachten, dass der Faktor im Exponenten zur „Längen-Normalisierung“ verwendet wird. Wenn keine Längen-Normalisierung durchgeführt wird, kann eine geringe Änderung der Likelihood von nur wenigen Token zu starken Schwankungen des Sequenz-Level-Importance-Verhältnisses führen. Darüber hinaus würden generierte Antworten unterschiedlicher Länge im Zielfunktions auch unterschiedliche Clip-Bereiche benötigen, was die Instabilität beim Training weiter erhöhen würde.
Vorteile durch experimentelle Validierung:
Vereinfachung des Trainings von MoE-Modellen
Spezielle Experimente an Mixture-of-Experts (MoE)-Modellen betonen weiter die Vorteile von GSPO.
Da MoE-Modelle eigenschaften von dünner Aktivierung aufweisen, wird die Instabilität beim Training bei der Verwendung von GRPO weiter verstärkt. Nach einem oder mehreren Gradienten-Updates können sich die Expert-Netzwerke, die von derselben Antwort aktiviert werden, erheblich ändern.
Das Qwen-Team hat festgestellt, dass beim Training des 48-schichtigen Qwen3-30B-A3B-Base-Modells mit GRPO: Nach jedem Gradienten-Update beim Reinforcement Learning etwa 10 % der von der neuen Strategie aktivierten Expert-Netzwerke sich von denen der alten Strategie unterscheiden. Dies bedeutet praktisch, dass Sie nach jedem Gradienten-Update mit unterschiedlichen Datensatz-Samples verschiedene Modelle trainieren. Zweifellos ist dies eine extrem ineffiziente Trainingsmethode.
Bevor GSPO eingeführt wurde, haben sie sogar eine Technik namens „Routing Replay“ angewandt, d.h. sie zwangen die Zielstrategie, die gleichen Expert-Netzwerke wie die alte Strategie zu aktivieren.
Im Gegensatz dazu kann GSPO ohne die Verwendung von Routing Replay ein stabiles Konvergenz erzielen, wodurch die unnötige Trainingskomplexität beseitigt und das volle Potenzial der MoE-Architektur beibehalten wird.
Die Routing Replay-Strategie spielt eine Schlüsselrolle bei der normalen Konvergenz des Trainings von MoE-Modellen mit GRPO
Schlussfolgerung:
GSPO könnte zum neuen Standard werden
Zusammenfassend lässt sich sagen, dass die Methode von GSPO zwei Innovationen aufweist:
Das Importance Sampling wird von der Token-Ebene auf die Sequenz-Ebene gehoben und durch die Sequenzlänge normalisiert;
Die Varianz wird deutlich reduziert, und die Abhängigkeit von Hilfsstrategien wie „Routing-Tricks“ (z.B. Routing Replay) wird beseitigt;
Es besteht in der Branche ein allgemeiner Konsens darüber, dass die Einbeziehung von Reinforcement Learning in die Nach-Trainingsphase von großen Sprachmodellen für die Verbesserung ihrer Inferenzfähigkeiten von entscheidender Bedeutung ist.
Die zahlreichen experimentellen Ergebnisse in der Publikation bestätigen weiter, dass die Methode von „Tokenweise Importance Sampling“ von GRPO Probleme mit Instabilität und Ineffizienz aufweist.
Es ist daher sehr