Die Trainingsgeschwindigkeit wird um das 1,8-fache erhöht, die Inferenzkosten werden um 78 % gesenkt, und die präzise Auswahl von Aufgaben beschleunigt effektiv das RL-Training.
Eine Reihe von Arbeiten, die auf der Feinabstimmung mit verstärkendem Lernen (RLVR) basieren und durch DeepSeek R1 repräsentiert werden, haben die Inferenzfähigkeit von Large Language Models deutlich verbessert. Doch hinter dieser Welle verbirgt sich der unerträglich hohe Preis für die verstärkte Feinabstimmung.
Ein Großteil der hohen Kosten stammt aus der „Niedrigeffizienz“ im Trainingsverlauf. Wenn man immer an ungeeigneten „Prüfungsaufgaben“ lernt, lernt man nichts und verschwendet dabei auch enorme Ressourcen. Stellen Sie sich vor, Sie möchten einen „Mathematikkünstler“ ausbilden und lassen ihn Tausende von Aufgaben lösen. Wenn die Aufgaben zu einfach sind, wie etwa „1 + 1“, ist es sinnlos; wenn sie zu schwer sind und er sie gar nicht lösen kann, ist es ebenfalls vergeblich.
Ein wirklich effizientes Training kommt von Aufgaben, die man mit etwas Anstrengung erreichen kann.
Bisher gab es in der Wissenschaft und Industrie hauptsächlich zwei Strategien, um für Large Models „Aufgaben auszuwählen“:
„Aufgabenflut - Strategie“ (Uniform Sampling): Man wählt zufällig Aufgaben aus dem Aufgabenpool für das Large Model aus. Dies führt dazu, dass eine Menge Rechenleistung für Aufgaben verschwendet wird, die keine effektiven Lernsignale liefern können. Beispielsweise kollabiert bei GRPO der Gradient auf 0, wenn es um Aufgaben geht, bei denen die Antwort entweder völlig richtig oder völlig falsch ist, und die Aktualisierungseffekte gehen verloren, was zu einer sinnlosen Verschwendung von Ressourcen führt.
„Testen - dann - Lernen“ (Dynamic Sampling, DS): Es wurden einige Online - Sampling - Methoden (wie DS in DAPO) vorgeschlagen, um das Training zu beschleunigen. Dabei lässt man das Large Model sich selbst in einem größeren Kandidatenpool von Aufgaben testen und selektiert dann Aufgaben mit angemessener Schwierigkeit für das Training. Doch das Selbsttesten erfordert selbst eine Menge Inferenz von Large Language Models, und die Kosten bleiben hoch. Es ist wie wenn man einem Mathematikkünstler Zeit sparen möchte, ihn aber dazu bringt, mehr Zeit für zusätzliche Vorkenntnistests zu verbringen.
Gibt es eine Methode, die sowohl präzise die Aufgaben mit der passenden Schwierigkeit auswählen kann als auch kein teures Selbsttesten des Large Models erfordert?
MoPPS: Leichte Vorhersage, präzise Aufgabenauswahl
Angesichts dieser Herausforderung haben das Team von Professor Ji Xiangyang aus der Tsinghua Universität (THU - IDM) in Zusammenarbeit mit dem CompVis - Team der Universität München einen völlig neuen Rahmen entwickelt: Modellbasierte prädiktive Promptauswahl (Model Predictive Prompt Selection, MoPPS).
Diese Arbeit wurde von KDD 2026 akzeptiert und hat die Aufmerksamkeit von Branchenunternehmen wie Ali Qianwen, Tencent Hunyuan und Ant sowie von bekannten wissenschaftlichen Teams wie Professor Zhang Tong von UIUC, Professor Wang Jun von UCL und Professor Max Welling von UvA erregt.
Das Kernproblem, das MoPPS löst, lautet:
Kann man die Schwierigkeit von Aufgaben dynamisch vorhersagen und darauf basierend Trainingsdaten präzise auswählen, um die Inferenzfähigkeit des Modells effizienter zu verbessern, ohne auf eine teure Bewertung durch ein Large Model angewiesen zu sein?
△ Das Dynamic Sampling im DAPO - Algorithmus beruht auf der Selbstbewertung des Large Models und bringt erhebliche Rechenkosten mit sich. MoPPS hingegen verwendet ein leichtgewichtiges Bayes - Modell, um die Schwierigkeit von Aufgaben schnell abzuschätzen und somit das Training durch effiziente Aufgabenauswahl zu beschleunigen.
Die Idee und Umsetzung von MoPPS sind sehr einfach:
1. Modellierung von Aufgaben als „One - Armed Bandit“ (Bandit Formulation)
MoPPS sieht jede Aufgabe (prompt, τ) als einen Arm eines One - Armed Bandits an.
Jede Aufgabe hat eine unbekannte „Gewinnwahrscheinlichkeit“, d. h. die Wahrscheinlichkeit, dass das Modell die Aufgabe unter den aktuellen Modellparametern richtig löst (Erfolgsrate).
Das Ziel des Trainings ist es, vorrangig die Aufgaben auszuwählen, die für das Training wertvoller sind, d. h. Aufgaben mittlerer Schwierigkeit mit einer Erfolgsrate von ungefähr 0,5.
2. Leichtgewichtige Bayes'sche Schwierigkeitsvorhersage (Bayesian Inference)
MoPPS ordnet jeder Aufgabe eine Beta - Verteilung zu, um ihre Erfolgsrate zu schätzen:
Ohne Vorwissen wird die Verteilung der Erfolgsrate einer Aufgabe als Gleichverteilung Beta(1,1) initialisiert. Wenn es zuverlässiges Vorwissen gibt, kann man es entsprechend einstellen, um die Effekte zu verbessern.
Im Laufe des Trainings liefert das Large Model „Erfolg/Niederlage“ - Feedback, und diese binären Rückmeldungen werden direkt in Aktualisierungen der Beta - Verteilung umgewandelt:
α′ = α + Anzahl der Erfolge, β′ = β + Anzahl der Niederlagen
Diese rekursive Aktualisierungsmethode erfordert nicht nur sehr wenig Rechenleistung, sondern kann auch immer präzisere Schwierigkeitsabschätzungen im Laufe des Trainings liefern. MoPPS führt auch einen Zeit - Abklingfaktor ein, um sich an die sich ständig ändernden Fähigkeiten des Modells anzupassen.
α′ = λ·α + (1 − λ)·α⁰ + Anzahl der Erfolge, β′ = λ·β + (1 − λ)·β⁰ + Anzahl der Niederlagen
3. Aktive Aufgabenauswahl (Active Selection with Thompson Sampling)
MoPPS basiert nicht auf dem echten Selbsttesten des Large Language Models, sondern probt direkt aus der Beta - Verteilung die Schwierigkeit voraus:
Es wird Thompson Sampling verwendet: Für jede Kandidatenaufgabe wird ein Schwierigkeitswert abgeleitet, um das Gleichgewicht zwischen Exploration und Ausnutzung zu wahren.
Man wählt aus dem Kandidatenpool die Aufgaben aus, deren Schwierigkeit am nächsten an der Zielschwierigkeit γ∗≈0,5 liegt (d. h. die „Goldaufgaben“, die man mit etwas Anstrengung erreichen kann).
Man verwendet nur die ausgewählten Aufgaben für das RL - Training; anschließend aktualisiert das echte Feedback die Beta - Verteilung, was einen geschlossenen Kreis bildet.
Dieses Design hat drei hervorragende Vorteile:
Sehr geringe Kosten: Die Vorhersage basiert auf der Stichprobe aus der Beta - Verteilung und erfordert keine zusätzliche Inferenz von Large Language Models.
Dynamische Anpassung: Die Online - Aktualisierung führt zu immer präziseren Schwierigkeitsabschätzungen.
Gleichgewicht zwischen Exploration und Ausnutzung: Thompson Sampling bringt Zufälligkeit ein, sodass man sowohl die bisher besten Aufgaben auswählen als auch potenziell wertvolle neue Aufgaben erkunden kann.
MoPPS stellt ein neues Paradigma von Vorhersage - Stichprobe - Optimierung dar:
△ Abbildung 1: Überblick über den MoPPS - Rahmen und Vergleich mit DS.
Erstaunliche Ergebnisse: 1,8 - fache Beschleunigung und 70 % Verringerung der Inferenzkosten
MoPPS zeigt deutliche Vorteile in drei Inferenztasks: Mathematik, Logik und visueller Geometrie:
Deutliche Reduzierung der Rechenkosten.
Im Vergleich zu Methoden wie „Testen - dann - Lernen“ (wie DS), die eine Menge zusätzlicher Inferenz erfordern, reduziert MoPPS die benötigten Rollouts um bis zu 78,46 %, um die gleiche Leistung zu erreichen!
△ Abbildung 2: Bei der Countdown - Aufgabe ist MoPPS sowohl in der TrainingsEffizienz als auch in der Leistung der Uniform - Auswahlstrategie überlegen und reduziert im Vergleich zur DS - Methode erheblich die Rechenkosten für Rollouts.
Deutliche Verbesserung der TrainingsEffizienz.
Im Vergleich zur traditionellen „Aufgabenflut - Strategie“ (Uniform Sampling) wählt MoPPS immer die wichtigsten Aufgaben für das Modell aus, und der Trainingsverlauf wird stark beschleunigt. Es wird eine Trainingsbeschleunigung von bis zu 1,6 - bis 1,8 - fachem erreicht, und die Trainingsergebnisse sind besser.
△ Abbildung 3: Trainingskurven von MoPPS und Basismethoden in drei Arten von Inferenztasks und bei Modellen unterschiedlicher Größe.
Präzise und zuverlässige Schwierigkeitsvorhersage.
Experimente haben gezeigt, dass es eine sehr hohe Korrelation (Spearman Rank Correlation) zwischen der vom MoPPS vorhergesagten Schwierigkeit von Aufgaben und der tatsächlichen Schwierigkeit gibt, was die Wirksamkeit und Zuverlässigkeit seiner Vorhersage beweist.
△ Abbildung 4: In allen Experimenten stieg die Korrelation im frühen Trainingsstadium schnell an und stabilisierte sich auf einem hohen Niveau von über 0,5, was die Genauigkeit der MoPPS - Vorhersage beweist.
Hohe Anwendbarkeit und Erweiterbarkeit der Methode.
1. Kompatibilität mit verschiedenen Algorithmen des verstärkenden Lernens:
MoPPS kann als „Datenfilter“ einfach eingesetzt werden und passt sich verschiedenen RL - Algorithmen wie PPO, GRPO, Reinforce++ an.
2. Unterstützung verschiedener Sampling - Strategien und Einbeziehung von Vorwissen:
MoPPS verwendet standardmäßig die Top - B - Sampling - Strategie, kann aber auch auf Schwellenwert - Sampling erweitert werden (Auswahl von Aufgaben, deren Schwierigkeit in einem bestimmten Intervall liegt). Darüber hinaus kann man Vorwissen einbeziehen, um das frühe Training weiter zu beschleunigen.
△ (a) MoPPS kann verschiedene Auswahlstrategien verwenden und kann Vorwissen einbeziehen, um die Effekte zu verbessern. * (b) Die Effektivität der Online - Aufgabenauswahl ist stärker als die der Offline - Auswahl
Zusammenfassung
Diese von der Tsinghua Universität (THU - IDM - Team) und der Universität München (CompVis - Team) gemeinsam durchgeführte Studie bietet ein mächtiges Werkzeug für die Feinabstimmung von Large Models mit verstärkendem Lernen, das „Kosten senken und Effizienz steigern“