Die langwierigen Antworten werden um 80 % reduziert. DeepSeek GRPO hat eine bahnbrechende Verbesserung erzielt, und Microsofts GFPO ist auf den Markt gekommen.
Wer mit Inferenzmodellen wie DeepSeek - R1 gearbeitet hat, wird wahrscheinlich schon mal in folgende Situation geraten sein: Bei einem etwas schwierigeren Problem redet das Modell wie in tiefem Nachdenken versunken lange und ausführlich herum, was Zeit und Rechenleistung verschwendet, ohne dass das Ergebnis unbedingt zuverlässig ist. Jetzt haben wir möglicherweise eine Lösung.
In den letzten Tagen hat der Microsoft - Forscher Dimitris Papailiopoulos auf 𝕏 ein neues Ergebnis bekanntgegeben: Group Filtered Policy Optimization (GFPO) – ein bahnbrechendes Verfahren der verstärkten Lernalgorithmen.
GFPO kann die Rechenkosten sowohl in der Trainings - als auch in der Testphase wägen. Es kann die Genauigkeit verbessern und gleichzeitig die zusätzliche Token - Länge, die durch die verstärkte Lernmethode bei der Inferenz entsteht, um bis zu 80% reduzieren!
Die Zahlen sind erstaunlich. Aber wie wird das eigentlich erreicht?
Gerade jetzt ist GFPO endlich auf arXiv online, und alle Details werden erstmals veröffentlicht. Die neue Methode der effizienten verstärkten Lernmethode steht kurz vor der Entdeckung.
- Titel der Studie: Sample More to Think Less: Group Filtered Policy Optimization for Concise Reasoning
- Link zur Studie: https://arxiv.org/abs/2508.09726
Um GFPO zu verstehen, schauen wir uns zuerst GRPO an
Bevor wir uns GFPO näher ansehen, ist es sinnvoll, uns die von DeepSeek vorgeschlagene Group Relative Policy Optimization (GRPO) anzusehen.
GRPO basiert auf dem Proximal Policy Optimization (PPO) - Algorithmus, wurde aber vereinfacht. Es ist nicht mehr erforderlich, ein Wertmodell zur Schätzung des Basislückengewinns zu verwenden. Konkret wird für jede Frage mehrere Antworten gesammelt, und der durchschnittliche Reward dieser Antworten wird als Basis verwendet. Das Optimierungsziel ist immer noch ähnlich wie beim PPO, nämlich ein gekürztes Surrogatziel (clipped surrogate objective).
Wenn wir θ als die Modellparameter, q als die Frage und o als die Antwort, die aus der alten Strategie π_θ_old gesammelt wurde, definieren, kann das GRPO - Ziel wie folgt geschrieben werden:
Es ist zu beachten, dass obwohl hier die Standard - GRPO - Verlustnormalisierungsformel gezeigt wird, mehrere Open - Source - Bibliotheken für verstärkte Lernmethoden, einschließlich verl und TRL, standardmäßig die DAPO - Token - niveau - Verlustnormalisierung für GRPO verwenden. Dies ist auch die Methode, die das Microsoft - Team in den Experimenten verwendet hat.
Eine entscheidende Einschränkung von GRPO besteht darin, dass es auf ein einzelnes skaläres Reward - Signal angewiesen ist. Dies macht es schwierig, mehrere gewünschte Antwortattribute, wie Kürze und Genauigkeit, gemeinsam zu optimieren. Das Ergebnis ist, dass GRPO zwar die Genauigkeit verbessern kann, aber auch die Länge der Antworten stark erhöht.
GFPO wurde genau für die Lösung dieses Problems entwickelt. Es kann mehrere Antwortattribute gleichzeitig optimieren.
Group Filtered Policy Optimization: GFPO
GFPO ist eine einfache und effektive Methode, um gezielt die Strategie für die gewünschten Antwortattribute zu optimieren.
GFPO sammelt für jede Frage eine größere Gruppe von Kandidatenantworten, um den Antwortpool zu erweitern und mehr Kandidatenantworten mit den gewünschten Eigenschaften zu enthalten. Anschließend werden diese Eigenschaften explizit gefiltert, wenn die Strategiegradienten berechnet werden. Obwohl es auf den ersten Blick natürlich erscheint, gewünschte Attribute wie Kürze oder Informationsgehalt direkt in ein skaläres Reward - Signal zu kodieren, kann es schwierig sein, mehrere Eigenschaften gleichzeitig zu kodieren, besonders wenn die Richtigkeit gewährleistet werden muss.
Das Datenfiltern ist eine implizite und flexible Form der Reward - Gestaltung – ähnlich wie die iterative Selbstverbesserungsmethode, die selektives Sammeln verwendet, um bestimmte Modellverhaltensweisen zu verstärken. Nachdem in diesem expliziten Filterungsschritt die gewünschten Antworten herausgefiltert wurden, wird der relative Gewinn innerhalb der ausgewählten Gruppe unter Verwendung des Standard - Rewards berechnet. Somit kann GFPO mehrere gewünschte Attribute (z. B. Länge und Genauigkeit) gleichzeitig optimieren, ohne komplexe Reward - Engineering - Methoden zu benötigen.
Da das Ziel hier ist, die Zunahme der Antwortlänge bei der verstärkten Lernmethode zu reduzieren, hat das Team hauptsächlich untersucht, wie man GFPO verwendet, um die Antwortlänge zu verkürzen, während die Genauigkeit ähnlich wie bei GRPO bleibt.
Gegeben eine Frage q, werden aus der aktuellen Strategie eine große Anzahl von Antworten G = {o_1, ..., o_G} gesammelt. GFPO trainiert nicht alle Antworten gleichermaßen, sondern wendet einen Auswahlschritt basierend auf vom Benutzer festgelegten Kriterien an, um eine Teilmenge der besten Antworten der Größe k auszufiltern und dann zu trainieren. Anschließend wird für jede Antwort ein Bewertungspunkt berechnet und entsprechend sortiert, und die ersten k Antworten werden ausgewählt, um eine verbleibende Teilmenge S ⊆ G zu bilden (Algorithmus 1). Hier definiert das Team eine binäre Maske m ∈ {0, 1}^G, wobei m_i = 1 für eine ausgewählte Antwort und m_i = 0 für eine abgelehnte Antwort steht.
Hier ist die formale Definition von GFPO:
Hier wird der Gewinn der Antworten in der ausgewählten Teilmenge S unter Verwendung des Durchschnitts (μ_S) und der Standardabweichung (σ_S) der Antwort - Rewards in S normalisiert. Auf diese Weise können die Antworten, die die gewünschten Attribute gezeigt haben, sinnvoll verglichen werden, um sicherzustellen, dass GFPO die Antworten mit dem höchsten Reward in der gefilterten Teilmenge bevorzugt. Die Gewinnwerte der Antworten, die nicht in S sind, sind Null, so dass sie effektiv von der Strategieaktualisierung ausgeschlossen werden.
Somit ist die Hauptintervention von GFPO auf der Ebene der Gewinnschätzung. Es kann mit jeder GRPO - Variante kompatibel sein, wie z. B. DAPO, Dr. GRPO oder GRPO mit Dual - Clip PPO - Verlust.
Obwohl GFPO durch das Sammeln mehrerer Antworten höhere Rechenkosten in der Trainingszeit verursacht, kann dieser Mehraufwand ausgeglichen werden, da die gelernten Strategien kürzere Antworten als GRPO produzieren.
Obwohl GFPO universell ist und sich an verschiedene Bewertungskriterien anpassen kann, hat Microsoft in diesen Experimenten Kriterien untersucht, die darauf abzielen, die Zunahme der Antwortlänge zu reduzieren:
- Antwortlänge: Das Training mit kurzen Antworten fördert direkt die Kürze.
- Token - Effizienz (Reward/Länge): Das Training mit Antworten hoher Token - Effizienz fördert die Kürze, aber längere Antworten können immer noch erlaubt sein, wenn sie sich „rechtfertigen“ können.
Andere Kriterien (z. B. Tatsächlichkeit, Vielfalt oder externe Qualitätsscore) können ebenfalls in GFPO integriert werden, um verschiedene Zielattribute zu optimieren.
Adaptive Difficulty GFPO
Das Team hat auch eine Variante von GFPO vorgeschlagen: Adaptive Difficulty GFPO, siehe Algorithmus 2. Das Ziel ist es, mehr Trainingssignale auf schwierigere Fragen zu verteilen.
In jedem Trainingsschritt wird die Schwierigkeit der Frage durch die Berechnung des durchschnittlichen Rewards der gesammelten Antworten für jede Frage geschätzt – ein niedrigerer durchschnittlicher Reward bedeutet eine höhere Schwierigkeit.
Um die Anzahl der beibehaltenen Antworten (k) adaptiv anzupassen, hat das Team eine leichte t - Digest - Datenstruktur verwendet, um einen fließenden Überblick über die Schwierigkeit der Fragen zu erhalten. Die t - Digest kann effektiv die Quartile aller bisherigen Fragen (durchschnittlicher Reward) approximieren, so dass neue Fragen in Buckets mit relativer Schwierigkeit klassifiziert werden können.
Auf der Grundlage dieser Klassifizierung weist das Team jeder Frage ein Ziel für die Anzahl der beibehaltenen Antworten k zu: 4 für einfache Fragen, 6 für mittelschwere Fragen und 8 für schwere und sehr schwere Fragen (aus 16 Stichproben ausgewählt). Dieser dynamische Lernplan kann einfachere Fragen aggressiver filtern und schwierigere Fragen mehr erforschen. Die Anzahl der Schwierigkeitsbuckets und der Wert von k für jedes Bucket sind Hyperparameter dieser Methode.
Adaptive Difficulty GFPO kann die Trainingsrechenleistung effizient nutzen, indem es die Gradientenaktualisierung auf die Bereiche konzentriert, wo sie am meisten benötigt wird. Es kann dem Modell helfen, die Redundanz bei einfachen Beispielen (bei denen die Richtigkeit bereits hoch ist) zu reduzieren, während die Genauigkeit bei schwierigeren Fragen durch die Beibehaltung mehrerer Inferenzketten aufrechterhalten wird.
Das Team hat gesagt: „Nach unserem Wissen ist dies der erste Algorithmus, der die effektive Gruppengröße dynamisch an die Schwierigkeit der Frage anpasst.“
Experimentelle Ergebnisse basierend auf GFPO
Wie performt GFPO? Das Team hat Experimente mit dem 14B - Parameter - Modell Phi - 4 - reasoning durchgeführt.
Sie haben drei Varianten von GFPO evaluiert:
- Shortest k/G: Behält die k kürzesten Antworten aus G bei, wobei k und die Gruppengröße G variiert werden, um deren Einfluss auf die Längenreduktion zu untersuchen.
- Token - Effizienz: Behält die k Antworten mit der höchsten Token - Effizienz (Reward pro Token) aus G bei, wobei k = 8 und G = 16 (entsprechend der Basis - Shortest k/G - Einstellung).
- Adaptive Difficulty: Behält die k kürzesten Antworten aus G bei, wobei k basierend auf der Echtzeit - Schwierigkeitsschätzung dynamisch ausgewählt wird (4, 6, 8, wobei 8 für einfach → sehr schwierig steht), G = 16.
Weitere experimentelle Details finden Sie in der Originalstudie. Hier konzentrieren wir uns auf einige Ergebnisse, die das Team erzielt hat.
Ergebnis 1: „Weniger nachdenken“ erfordert mehr Sammeln: Die Reduzierung der beibehaltenen Antworten (Shortest 6/8 GFPO) ohne Erhöhung der Gruppengröße reduziert nicht die Antwortlänge.
Ergebnis 2: Der Prozentsatz der beibehaltenen Antworten (k/G) kann den Längenanstieg kontrollieren: Die Reduzierung von k oder die Erhöhung von G verkürzt die Länge weiter. Das Team hat festgestellt, dass das Beibehalten von 25 - 33% der Antworten am besten ist. Je kleiner der Anteil, desto geringer der Gewinn. Shortest 4/24 ist die beste GFPO - Variante für die Längenoptimierung und kann die überlangen Antworten am stärksten reduzieren.
Ergebnis 3: Die Optimierung der Token - Eff