StartseiteArtikel

OpenAI hat die Lücke, die es letztes Jahr geschaffen hat, geschlossen. Das Reward-Modell zeigt erstmals das Skalierungsgesetz auf, und ein 1,8-Milliarden-Parameter-Modell hat einem 70-Milliarden-Parameter-Riese eine Lehre erteilt.

新智元2025-07-11 15:20
Kürzlich ist ein brandneues Belohnungsmodell namens "POLAR" aufgetaucht. Es setzt bahnbrechend das Paradigma des kontrastiven Lernens ein und gibt feingranulierte Punktzahlen, indem es die "Entfernung" zwischen der Modellantwort und der Musterlösung misst. Es ist nicht nur unabhängig von einer riesigen Menge an manuellen Annotationen, sondern zeigt auch ein starkes Skalierungspotenzial, sodass kleine Modelle auch Gegner, die um das Dutzendmal größer sind, übertreffen können.

Seit langem ist es ein zentrales Thema im Bereich der großen Modelle, KI besser verstehen zu lassen, was der Mensch will.

Das Reward-Modell (RM) ist die zentrale Technologie, um die Frage zu beantworten, wie man die "Präferenzen des Menschen verstehen" kann. Gleichzeitig ist es auch ein Schlüsselfaktor, der die Effektivität des Nachtrainings begrenzt.

Im Dezember 2024 hat OpenAI eine neue Technologie namens "Reinforcement Fine-tuning" (RFT) vorgestellt. Während des RFT-Prozesses gibt der Bewertungsalgorithmus (Grader) basierend auf den richtigen Antworten Belohnungspunkte, um das Modell zu helfen, "zu lernen", wie es richtige Ergebnisse liefern kann.

Abbildung 1: Ein repräsentatives Beispiel für OpenAIs Reinforcement Fine-tuning

Angeregt dadurch ist eine Methode auf Basis von Regelvalidierung (RLVR) entstanden, die die inhärenten Probleme von Reward-Modellen wie geringe Genauigkeit und schlechte Generalisierbarkeit umgehen kann.

Allerdings kann RLVR in vielen Fällen nur 0/1-Belohnungen geben und keine feiner abgestuften Präferenzunterscheidungen treffen.

Beispielsweise ist es bei offenen Fragen wie Gedichtschreiben oder Chatting schwierig, Generalisierungen zu treffen, was die Anwendung in allgemeineren Szenarien einschränkt.

Um dieses Problem zu lösen, haben Forscher aus dem Shanghai Artificial Intelligence Laboratory und der Fudan-Universität kürzlich ein neues Reward-Modell namens POLAR vorgestellt und Versionen mit 1,8 Milliarden und 7 Milliarden Parametern open source gemacht.

Im Gegensatz zu traditionellen Reward-Modellen, die auf "absoluten Präferenzen" basieren, verwendet POLAR ein neues Paradigma für das kontrastive Lernen im Pre-training. Dadurch kann es flexibel Belohnungspunkte für die Antworten des Modells basierend auf den Referenzantworten geben.

Die praktischen Ergebnisse zeigen, dass POLAR bereits das Potenzial eines ausgezeichneten "Graders" aufweist.

Link zur Publikation: https://arxiv.org/abs/2507.05197

Link zum Projekt: https://github.com/InternLM/POLAR

Link zum Modell: https://huggingface.co/internlm/POLAR-7B

Wir haben das offizielle Beispiel aus dem Bereich der Biogenetik von OpenAI, das am Anfang erwähnt wurde, in POLAR eingegeben und einige Modellantworten konstruiert. Wir haben festgestellt, dass POLAR die richtige Ordnung der Präferenzen perfekt bestimmen kann!

Antwort 1 (stimmt vollständig mit der Referenz überein):

FOXE3

Punktzahl: -0,278

Antwort 2 (richtige Antwort, Rang 1):

Gene: [FOXE3, KDM5A, BBS5]

Punktzahl: -7,889

Antwort 3 (richtige Antwort, Rang 2):

Gene: [BBS5, FOXE3, KDM5A]

Punktzahl: -7,998

Antwort 4 (richtige Antwort, Rang 3):

Gene: [KDM5A, BBS5, FOXE3]

Punktzahl: -8,008

Antwort 5 (ähnliche Schreibfehler wie die richtige Antwort):

Gene: [FOXE2, KDM5A, BBS5]

Punktzahl: -8,965

Antwort 6 (keine richtige Antwort):

Gene: [CHD7, KDM5A, BBS5]

Punktzahl: -10,225

Darüber hinaus kann POLAR auch bei offenen Fragen die richtige Ordnung der Präferenzen basierend auf den Referenzbeispielen bestimmen:

Frage: Bitte fassen Sie den zweiten Teil von "Drei Körper" humorvoll in einem Satz zusammen.

Referenzantwort (nennt das dunkle Waldgesetzen und die Schlüsselereignisse):

Die Menschen stoßen die Raumflotte der Trisolaraner mit dem Satz "Ich sag es dem Lehrer!" zurück.

Antwort 1 (nennt das dunkle Waldgesetzen und die Schlüsselereignisse):

Die Menschen werden von den Trisolaranern auf den Boden geknallt und werden schließlich von Luo Jis "Universum-Scheinselbstmord" vor Angriffen abschrecken.

Punktzahl: -7,414

Antwort 2 (nennt das dunkle Waldgesetzen):

Luo Ji denkt sich ein ganzes Buch lang über die Wahrheit nach und kommt schließlich zu dem Schluss: Poste nicht zu viel auf sozialen Medien, sonst wirst du ermordet.

Punktzahl: -8,070

Antwort 3 (teilweise Tatsachenfehler, die Zwei-Dimensional-Folien sind aus dem dritten Teil):

Das gesamte Universum spielt "Verstecken und Suchen" im dunklen Wald, aber die Menschen hängen das Schild "Töte mich nicht" falsch herum und locken so die Zwei-Dimensional-Folien-Abreißmannschaft an.

Punktzahl: -8,141

Antwort 4 (nennt nicht das dunkle Waldgesetzen):

Die Wände des Geistes spielen ein Kriminalthriller, die Brecher der Wände des Geistes spielen ein Detektivspiel, und die Trisolaraner schauen eine absurde Komödie.

Punktzahl: -8,922

Antwort 5 (nicht genug humorvoll):

Mit dem Beginn der Krise-Ära wählen die Menschen "Wände des Geistes" aus, um psychologische Spiele zu spielen und schließlich die Trisolaraner-Zivilisation mit dem Gesetz des dunklen Waldes einzuschüchtern.

Punktzahl: -9,742

Frage: Bitte geben Sie mir 3 chinesische Sprichwörter, um starken Regen zu beschreiben, ohne Wiederholungen.

Referenzantwort:

1. Regen wie aus einer Eimer 2. Starkes Regen wie aus einem Rohr 3. Regen wie aus einer Schüssel

Antwort 1 (richtige Antwort):

1. Starkes Regen wie aus einem Wasserfall 2. Sturm und Regen 3. Starkes Regen wie aus einem Rohr

Punktzahl: -5,234

Antwort 2 (keine chinesischen Sprichwörter):

1. Schneller Regen wie aus einem Wasserfall 2. Starkes Regen wie aus einem Himmel 3. Starkes Regen wie aus einer Welle

Punktzahl: -5,707

Antwort 3 (ähnlich der Referenzantwort, eine Wiederholung):

1. Regen wie aus einer Eimer 2. Starkes Regen wie aus einem Rohr 3. Starkes Regen wie aus einem Rohr

Punktzahl: -6,656

Antwort 4 (richtige chinesische Sprichwörter, ein zusätzliches):

1. Starkes Regen wie aus einem Wasserfall 2. Sturm und Regen 3. Starkes Regen wie aus einem Rohr 4. Regen wie aus einer Eimer

Punktzahl: -7,023

Antwort 5 (chinesische Sprichwörter mit dem Wort "Regen", zwei haben eine andere Bedeutung):

1. Starkes Regen wie aus einem Wasserfall 2. Nach dem Regen kommt die Sonne 3. Nach dem Regen sprießen die Bambussprossen

Punktzahl: -8,578

POLAR passt perfekt in das RFT-Framework für das verstärkte Lernen. Es bewertet die Ausgabe des Modells basierend auf den Referenzantworten der Frage. Wenn die Ausgabe des Modells näher an den Referenzantworten ist, erhält es höhere Belohnungswerte.

Durch diesen Trainingsvorgang kann das Strategiemodell schrittweise in Richtung der optimalen Strategie optimiert werden.

Wie wird POLAR trainiert?

POLAR verwendet ein neues Paradigma für das Reward-Modellieren, das von absoluten Präferenzen entkoppelt ist und sich wirklich effizient skalieren lässt: Policy Discriminative Learning (POLAR). Dadurch kann das Reward-Modell wie ein großes Sprachmodell skalierbar und stark generalisierbar sein.

Abbildung 2: Zwei-Phasen-Training von POLAR (Pre-training und Präferenz-Fine-tuning) und seine Verwendung in RFT

Im Gegensatz zu traditionellen Reward-Modellierungsansätzen, die auf "absoluten Präferenzen" basieren, misst POLAR die Distanz zwischen der Trainingsstrategie und der Zielstrategie als Belohnungssignal.

Je näher die Trainingsstrategie an der Zielstrategie ist, desto höher ist die Belohnung, die POLAR gibt.

Genauer gesagt, verwendet POLAR eine kontrastive Lernmethode, um die Distanz zu messen: Ergebnisse, die von demselben Strategiemodell gesampelt werden, werden als positive Beispiele betrachtet, während Ergebnisse, die von verschiedenen Strategiemodellen gesampelt werden, als negative Beispiele betrachtet werden.

Indem man auf diese Weise positive und negative Beispiele konstruiert, entsteht ein unvoreingenommener Optimierungsziel. Gleichzeitig wird das Strategiemodell als ein unvoreingenommener Sampler für eine bestimmte Verteilung angesehen, und die Distanz zwischen den Strategien wird durch die Beschreibung der Unterschiede zwischen den Beispielen angenähert.

Das Pre-training-Korpus von POLAR besteht vollständig aus automatisch synthetisierten Daten.

Genauer gesagt, werden aus dem Pre-training-Korpus von LLMs eine große Anzahl von Textpräfixen gesampelt, und es wird ein Modell aus dem Pool der Strategiemodelle zufällig ausgewählt, um Trajektorien zu samplen.

Der Pool der Strategiemodelle besteht aus 131 offenen Base LLMs und 53 Chat LLMs. Das Pre-training-Ziel verwendet die Bradley-Terry-Loss:

Dabei repräsentieren A1 und A2 Stichproben, die von demselben Strategiemodell generiert wurden (positive Stichprobenpaare); B1 repräsentiert eine Stichprobe, die von einem anderen Strategiemodell generiert wurde (negative Stichprobe).

Da die "Distanz" relativ ist, können die beiden Strategiemodelle A und B beliebig ausgewählt werden.

Beispielsweise können A1 und A2 von Qwen 1,5 Milliarden Parametern gesampelt werden, und B1 kann von Qwen 72 Milliarden Parametern gesampelt werden. Auf diese Weise ist es sehr einfach, das Pre-training-Korpus von POLAR zu erweitern.

In den praktischen Experimenten hat POLAR-1,8 Milliarden Parametern insgesamt 0,94 T Token an Pre-training-Daten verwendet, und POLAR-7 Milliarden Parametern hat insgesamt 3,6 T Token an Pre-training-Daten verwendet.

Durch das Pre-training kann POLAR höheren Belohnungen für Stichproben geben, die von Strategien mit geringer Distanz stammen, und so die Unterschiede und Distanzen zwischen den Strategieverteilungen implizit modellieren.

Anschließend kann POLAR im Fine-tuning-Schritt mit einer geringen Menge an Präferenzdaten an die menschlichen Präferenzen angepasst werden.

Genauer gesagt, werden für dasselbe Prompt drei Trajektorien gesampelt, und die Präferenzreihenfolge wird manuell annotiert. Auch hier wird die Bradley-Terry-Loss für das Fine-tuning verwendet:

Dabei repräsentieren A > B > C die Trajektorien mit der besten, der zweitbesten und der schlechtesten Präferenz.

Diese Präferenzreihenfolge definiert implizit eine "Strategiedifferenz". Beispielsweise kann A als eine Stichprobe aus der besten Strategieverteilung betrachtet werden, während C als eine Stichprobe aus einer Strategieverteilung betrachtet werden kann, die weit von der besten Strategie entfernt ist.

Scaling-Effekt von POLAR