首页文章详情

Gerade jetzt hat der Blog von Thinking Machines Lab darauf hingewiesen, dass Qwen 38 Mal erwähnt wurde, als es um die Strategiedistillation ging.

机器之心2025-10-28 09:56
Policy Distillation ist eine Trainingsmethode, die die Korrekturrelevanz des Reinforcement Learnings (RL) mit der Belohnungsdichte des Supervised Fine-Tuning (SFT) kombiniert.

Gerade jetzt hat das Thinking Machines Lab (im Folgenden TML), das lieber Blogs als wissenschaftliche Artikel veröffentlicht, erneut ein Update veröffentlicht und einen Blogbeitrag mit dem Titel "On-Policy Distillation" (In-Strategie-Destillation) herausgebracht.

On-Policy Distillation (In-Strategie-Destillation) ist eine Trainingsmethode, die die Fehlerkorrekturrelevanz des Reinforcement Learnings (RL) mit der Belohnungsdichte des Supervised Fine-Tuning (SFT) kombiniert. Als TML diese Methode für mathematische Schlussfolgerungen und interne Chat-Assistenten anwandte, stellte es fest, dass die On-Policy Distillation andere Methoden mit extrem geringen Kosten übertreffen kann.

Der CEO der Firma, Mira Murati, sagte, dass diese Methode für kleine Modelle eingesetzt werden kann, um ihnen eine starke Leistung in bestimmten Bereichen und die Fähigkeit zum kontinuierlichen Lernen zu verleihen.

Es ist bemerkenswert, dass TML in diesem neuen Blogbeitrag klar angegeben hat, dass diese neuen Ergebnisse von den Forschungen des Qwen-Teams inspiriert wurden und dass in den Experimenten auch häufig Modelle der Qwen3-Serie verwendet wurden. Tatsächlich taucht das Stichwort "Qwen" in dem ursprünglichen englischen Blogbeitrag insgesamt 38 Mal auf! Das ist sogar einmal mehr als Lei Jun bei der Vorstellung der Xiaomi 17-Serie das Wort "Apple" erwähnte (37 Mal).

Als angesehene Startup-Firma zieht die Updates von TML auch breite Aufmerksamkeit auf sich. Manche haben die Stärken von TML zusammengefasst:

Einige Internetnutzer loben sogar, dass TML das echte OpenAI sei.

Blog-Adresse: https://thinkingmachines.ai/blog/on-policy-distillation/

Der Hauptautor dieses Blogbeitrags ist Kevin Lu, ein Forscher von Thinking Machines Lab. Er hat zuvor bei OpenAI gearbeitet, die Veröffentlichung von 4o - mini geleitet und an der Entwicklung von Modellen wie GPT - 5 series, GPT - oss, o3 & o4 - mini, 4.1 - nano & 4.1 - mini, o1 - mini, o3 - mini beteiligt.

Im Folgenden werden wir uns ausführlicher den Inhalt dieses Blogbeitrags ansehen.

Große Sprachmodelle (LLMs) können auf bestimmten Gebieten eine expertenähnliche Leistung zeigen. Dies ist das Ergebnis der gemeinsamen Wirkung mehrerer Fähigkeiten, darunter: die Wahrnehmung der Eingabe, die Wissenssuche, die Planung und Auswahl sowie die zuverlässige Ausführung.

Um dies zu erreichen, sind eine Reihe von Trainingsmethoden erforderlich. Wir können diese grob in drei Phasen einteilen:

Pre - training (Vortraining): Vermittlung von allgemeinen Fähigkeiten wie der Sprachgebrauch, die allgemeine Schlussfolgerung und das Weltwissen.

Mid - training (Zwischentraining): Vermittlung von Fachwissen wie Code, medizinische Datenbanken oder interne Unternehmensdokumente.

Post - training (Nachtraining): Führung zu Zielverhaltensweisen wie der Befolgung von Anweisungen, der Lösung von mathematischen Problemen oder dem Chat.

In bestimmten Fachbereichen zeigen kleine, stark trainierte Modelle oft eine bessere Leistung als große, allgemeine Modelle. Die Verwendung kleiner Modelle hat viele Vorteile:

Aus Datenschutz - oder Sicherheitsgründen können sie lokal bereitgestellt werden.

Sie können leichter kontinuierlich trainiert und aktualisiert werden.

Sie können auch die Inferenzkosten sparen.

Um diese Vorteile nutzen zu können, muss man die richtige Methode für die späteren Trainingsphasen auswählen.

Die Methoden zum Nachtraining von "Schüler" - Modellen können in zwei Kategorien eingeteilt werden:

On - Policy - Training: Sampling von Trajektorien (Rollouts) aus dem Schüler - Modell selbst und Zuweisung einer Belohnung für diese Trajektorien.

Off - Policy - Training: Abhängigkeit von Zielausgaben aus einer externen Quelle, und das Schüler - Modell muss lernen, diese Ausgaben zu imitieren.

Nehmen wir beispielsweise an, wir möchten ein kompaktes Modell trainieren, um mathematische Probleme wie das folgende zu lösen:

Wir können das On - Policy - Training über Reinforcement Learning (RL) durchführen. Konkret bedeutet dies, dass wir jede Trajektorie des Schüler - Modells bewerten, je nachdem, ob das Problem gelöst wurde oder nicht. Diese Bewertung kann manuell oder durch ein "Lehrer" - Modell erfolgen, das zuverlässig die richtigen Antworten liefert.

Der Vorteil des On - Policy - Trainings besteht darin, dass der Schüler direkt lernt, Fehler zu vermeiden, indem er auf seinen eigenen Stichproben trainiert.

Jedoch hat RL einen Hauptnachteil: Es liefert sehr spärliche Rückmeldungen (sparse feedback). Unabhängig von der Anzahl der Tokens lehrt es in jeder Trainingsrunde (Episode) eine feste Anzahl von Bits.

In unserem obigen Beispiel weiß der Schüler nur, dass "21" die falsche Antwort ist und aktualisiert das Modell, um diese Trajektorie zu vermeiden. Aber er lernt nicht, wo genau der Fehler liegt - ob es die falsche Operatorreihenfolge oder ein arithmetischer Fehler war. Diese Sparsamkeit der Rückmeldung macht RL in vielen Anwendungen ineffizient.

Das Off - Policy - Training wird normalerweise durch Supervised Fine - Tuning (SFT) durchgeführt, d. h. das Training auf einer sorgfältig geplanten, markierten Beispielmenge für eine bestimmte Aufgabe. Die Quelle dieser markierten Beispiele kann ein Lehrer - Modell sein, das in der aktuellen Aufgabe hervorragend abschneidet.

Wir können einen Mechanismus namens Destillation (Distillation) verwenden: Trainieren des Schüler - Modells, um die Ausgabeverteilung des Lehrer - Modells zu entsprechen. Wir trainieren auf den Trajektorien des Lehrers, die vollständige Sequenzen von generierten Tokens sind, einschließlich der mittleren Denkschritte.

In jedem Schritt können wir entweder die vollständige "Verteilung des nächsten Tokens" des Lehrers (oft als "Logit - Destillation" bezeichnet) verwenden oder einfach die gegebene Sequenz samplen. Es hat sich gezeigt, dass die Stichprobensequenz eine unverzerrte Schätzung der Lehrer - Verteilung liefert und dasselbe Ziel erreichen kann. Das Schüler - Modell wird entsprechend der Wahrscheinlichkeit, mit der es diesen Token generiert, aktualisiert, wie in folgendem Beispiel in dunklerer Farbe dargestellt:

Es hat sich gezeigt, dass die Destillation großer Lehrer - Modelle sehr effektiv ist, um kleine Modelle zu trainieren, damit sie in der Lage sind:

Anweisungen zu befolgen

Mathematische und wissenschaftliche Schlussfolgerungen durchzuführen

Klinische Informationen aus medizinischen Notizen zu extrahieren

Und an mehrseitigen Chatgesprächen teilzunehmen

Die Destillationsdatensätze für diese und andere Anwendungen sind normalerweise Open Source und öffentlich zugänglich.

Der Nachteil des Off - Policy - Trainings besteht darin, dass der Schüler in den Kontexten lernt, in denen der Lehrer häufig ist, und nicht in den Kontexten, in denen der Schüler selbst in Zukunft häufig sein wird.

Dies kann zu einem kumulativen Fehler (compounding error) führen: Wenn der Schüler frühzeitig einen Fehler macht, den der Lehrer nie gemacht hat, wird er feststellen, dass er sich immer weiter von den Zuständen entfernt, die er im Training beobachtet hat.

Dieses Problem wird besonders deutlich, wenn wir uns um die Leistung des Schülers bei langen Sequenzen kümmern. Um diese Abweichung zu vermeiden, muss der Schüler lernen, sich von seinen Fehlern zu erholen.

Ein weiteres Problem, das bei der Off - Policy - Destillation beobachtet wird, ist, dass der Schüler lernen kann, den Stil und das Selbstvertrauen des Lehrers zu imitieren, aber nicht unbedingt seine Sachgenauigkeit.

Um es an einem Beispiel zu verdeutlichen: Wenn Sie Schach lernen, ist das On - Policy - RL wie das Spielen von Schach ohne einen Trainer. Die Rückmeldung über den Sieg oder die Niederlage hängt direkt mit Ihren eigenen Zügen zusammen, aber Sie erhalten nur einmal pro Spiel eine Rückmeldung, und es wird Ihnen nicht gesagt, welche Züge am meisten zum Ergebnis beigetragen haben. Die Off - Policy - Destillation ist dagegen wie das Beobachten eines Großmeisters beim Schachspielen - Sie beobachten sehr hohe Züge, aber diese Züge werden in Spielsituationen gemacht, die für Anfänger selten auftreten.

Wir möchten die On - Policy - Relevanz von RL mit dem dichten Belohnungssignal der Destillation kombinieren.

Für das Lernen von Schach wäre dies wie ein Lehrer, der jeden Ihrer Züge von "total falsch" bis "genial" bewertet. Für das Nachtraining von LLMs ist dies die On - Policy Distillation (In - Strategie - Destillation).

On - Policy Distillation - Die besten von beiden Welten

Das Kernkonzept der On - Policy Distillation besteht darin, Trajektorien aus dem Schüler - Modell zu samplen und ein leistungsstarkes Lehrer - Modell zu verwenden, um jeden Token jeder Trajektorie zu bewerten.

Wiederholen wir unser obiges mathematisches Beispiel: Die On - Policy Distillation bewertet jeden Schritt der Problemlösung, bestraft die falschen Schritte, die den Schüler zu einer falschen Antwort führen, und stärkt die richtigen Schritte.

In diesem Artikel haben wir die Anwendung der On - Policy Distillation in folgenden Aufgaben untersucht:

1. Trainieren eines Modells für mathematische Schlussfolgerungen.

2. Trainieren eines Assistentenmodells, das sowohl Fachwissen als auch die Fähigkeit zur Anweisungsbefolgung aufweist.

Wir haben die On - Policy Distillation auf einem Modell angewendet, das bereits über die grundlegenden Fähigkeiten des Pre - Trainings und des Mid - Trainings verfügt. Wir haben festgestellt, dass dies eine kostengünstige und starke Nachtrainingsmethode ist, die die Vorteile des On - Policy - Trainings und das dichte Belohnungssignal erfolgreich kombiniert.

Unsere Arbeit an der On - Policy Distillation baut auf DAGGER (Ross et al, 2010) auf, einem iterativen SFT - Algorithmus, der die Bewertung der Zustände des Schülers durch den Lehrer enthält.

Es ähnelt auch der Prozess Reward Modeling (Lightman et al, 2023), einer RL - Methode, die jeden Schritt in der Denk - Kette des Schüler - Modells bewertet.