Reinforcement Learning AI Systems: Design, Implementation, and Future Development

Beginnen Sie mit dem traditionellen RLHF-System und zeigen Sie anhand von Algorithmuspraktiken die aktuelle Situation und die Entwicklung des RL-Systems auf.

Reinforcement Learning (RL), als Mittel zur weiteren Verbesserung der Intelligenz von Large Language Models (LLMs), ist seit jeher der am komplexesten und zentralsten Teil des Trainings von LLMs. Die Komplexität zeigt sich nicht nur in den Algorithmen, sondern auch in den Gesamtanforderungen an das System.

Dieser Artikel basiert auf dem Vortrag von Cao Yu, einem Algorithmus-Experten von Alibaba, auf der AICon 2025 in Peking im Juni dieses Jahres: "Entwurf, Implementierung und zukünftige Entwicklung von RL-basierten KI-Systemen". Sein Vortrag beginnt mit dem traditionellen RLHF-System und zeigt anhand von Algorithmus-Praktiken den gegenwärtigen Stand und die Entwicklungstendenz von RL-Systemen. Anhand konkreter Praktiken wird gemeinsam mit Branchenmitarbeitern über die zukünftige Entwicklung von Super-Massive RL diskutiert. Der Vortrag beinhaltet sowohl theoretische Grundlagen als auch Branchenpraktiken und schließt schließlich auch die Open-Source-Ökosysteme und die Gemeinschaftsbildung ein.

Im Folgenden finden Sie die Transkription des Vortrags (bearbeitet von InfoQ ohne Änderung der ursprünglichen Bedeutung).

Ich freue mich sehr, heute mit Ihnen über die Anwendung von Reinforcement Learning (RL) in der Systemgestaltung von Large Language Models (LLMs) zu sprechen und Ihnen einige erste Vorschläge für die zukünftige Entwicklung zu geben.

Von RLxF-Theorie zur Industrialisierung

Aus theoretischer Sicht hat RL vielfältige Anforderungen an die Industrialisierung. Heute konzentrieren wir uns stärker auf die Industrialisierung und das Gebiet der KI-Infrastruktur (AI Infra), daher werden wir die Grundalgorithmen nur kurz erwähnen. Zunächst die Algorithmentheorie. Diese scheint sehr abstrakt und einfach, wie ein Zyklus. Der Agent in RL bezieht sich in der Vergangenheit oft auf die intelligente Einheit in RL, aber heute bezieht sich der hier diskutierte Agent eher auf die intelligente Einheit von LLMs. Die Industrialisierungsreife der RL-Systemalgorithmen ermöglicht eine gute Integration von LLMs und RL. Der Agent ist sowohl das Trägermedium für den RL-Algorithmus als auch für das LLMs als Aktionsmodell. Im Wesentlichen erfordert die Algorithmentheorie, dass das LLMs in der ständigen Interaktion zwischen Strategie und Umgebung die Welt effizienter erkunden und bessere Belohnungen erhalten kann, um sich besser an die Umweltziele anzupassen. Auf strategischer Ebene ist der Lernalgorithmus am wichtigsten, d.h. der RL-Algorithmus leitet die Strategie, wie die Gradienten aktualisiert und die Aufgaben besser erfüllt werden können. Für die Umwelt ist die Belohnungsfunktion am wichtigsten, d.h. wie eine richtige Belohnung für ein Problem vergeben wird, damit das Modell wirklich wertvolle Inhalte lernen kann.

Aus der scheinbar einfachen und abstrakten Algorithmentheorie links in der folgenden Abbildung ist die Ausführungslogik tatsächlich viel komplexer als wir denken. Die Mitte ist die Ausführungslogik eines Frameworks, an dem ich beteiligt war - Open RLxF. Im Vergleich zur Algorithmentheorie links ist es offensichtlich komplexer. Denn in der tatsächlichen Ausführung haben wir mehrere Algorithmuskomponenten, z.B. der grüne Teil ist das Modell im Trainingszustand, der blaue Teil ist das Modell im Inferenzzustand. Diese Modelle interagieren und beeinflussen einander, um das Modell bei der relevanten Ausbildung zu unterstützen. Dies scheint bereits komplex zu sein, aber in der tatsächlichen industriellen Umsetzung ist es noch komplexer. Vielen Dank an die AReaL von Ant Group. Die tatsächliche industrielle Ausführungsgrafik von Open RLxF, die darauf basiert, ist ebenfalls so. Dies ist der gegenwärtige Stand der Industrialisierungspraxis.

Was die spezialisierten Grundlagen betrifft, können wir einfach verstehen, dass die Umwelt beschreibt, wie der Agent mit der Welt interagiert. Im Szenario eines Chatbots ist die Umwelt die Art und Weise, wie das LLMs mit Menschen interagiert; im Szenario eines Programmier-Agents ist die Umwelt die Interaktion zwischen Strategienetzwerken, Code-Ausführern, Browser-Nutzung und anderen Netzwerktools. Die Umwelt kann als Gegenüber des LLMs und des auf dem LLMs basierenden Agents verstanden werden, d.h. mit wem sie interagieren. Dies ist ein sehr wichtiges Konzept. Darüber hinaus möchten wir die Strategie in Form eines Agents ausdrücken. Der Agent entscheidet autonom, wie er im nächsten Schritt handelt, basierend auf dem aktuellen Zustand (z.B. der Eingabe des Benutzers und der Rückmeldung der Umwelt). Dies ist der wichtige Wendepunkt, an dem sich das Modell von einem einfachen Chatbot zu einem Agent entwickelt, d.h. es kann autonom geeignete Handlungen auswählen und die optimale Strategie anwenden.

Nachdem wir die Umwelt und die Strategie haben, benötigen wir noch zwei wichtige Faktoren. Zunächst die Belohnungsfunktion. Die Beurteilung der Güte einer Handlung ist ein sehr wichtiger Eingabeparameter. In den letzten ein bis zwei Jahren war die Umsetzung von RL in LLMs in hohem Maße auf die Modellierung und Optimierung der Belohnungsfunktion zurückzuführen. Vom gängigen Reinforcement Learning from Human Feedback (RLHF) über das auf Verfassungen basierende Feedback-Reinforcement Learning bis hin zum heutigen RL auf der Grundlage von verifizierbaren Regeln - dieser fortschreitende Prozess repräsentiert tatsächlich die zunehmende Vielfalt der Signalquellen der RL-Belohnungsfunktion und die stetig steigende Schwierigkeit der Aufgaben. Das letzte ist der Algorithmus selbst, worauf sich die Algorithmus-Forscher wirklich konzentrieren. Derzeit gibt es viele Algorithmen, wie der bekannte PPO, GRPO, DPO usw. Sie beziehen sich mehr auf die Strategie, d.h. wie die Strategie basierend auf Zustand, Aktion und Belohnungshistorie aktualisiert wird, damit der Agent sich ständig verbessert. Dies ist die allgemeine Übersicht über die Algorithmen.

In Bezug auf die Algorithmen gibt es in der Branche einige praktische Erfahrungen. In der Vergangenheit haben wir in hohem Maße an Reinforcement Learning from Human Feedback (RLHF) gearbeitet, und RLHF ist auch einer der Hauptgründe, warum wir uns heute hier treffen können. Was die große Welle der Large Models tatsächlich ausgelöst hat, war tatsächlich das sogenannte Instruct GPT. Es nutzte das Signal von RLHF und entwickelte auf der Grundlage des GPT-3 ein Lernsystem, das Anweisungen gut befolgen und verstehen kann. Seine Haupttrainingsmethode war relativ primitiv, d.h. die Güte der vom Modell generierten Antworten wurde von Menschen bewertet und annotiert, und dann wurde ein anderes Modell (statt Menschen) trainiert, um die menschliche Bewertung zu approximieren. Auch dieses Modell ist ein Large Language Model. In diesem Fall haben wir für zukünftige Prompts und Antworten eine zusätzliche Annäherung an das menschliche Feedback-Signal, um so ständig die Obergrenze der Modellfähigkeit zu erreichen. Diese Methode hat relative Vorteile. Ihre Modellstruktur ist relativ einfach, der Trainingsvorgang ist relativ stabil und verwendet eine weit verbreitete mathematische Funktionsform. Bei der Training mit einer großen Menge an Daten gibt es eine gewisse Generalisierungsfähigkeit und gute Ergebnisse.

Allerdings hat es auch Nachteile. Beim Training können die menschlichen Annotationen und Feedback nicht unendlich sein und alle Aspekte des menschlichen Verhaltens abdecken. Daher tritt das Phänomen des "Reward Hacking" auf, d.h. das Belohnungssignal wird vom Modell ausgenutzt, was zu unerwarteten Situationen führt. Unter dieser Voraussetzung wird in der Branchenpraxis oft eine Kombination von menschlichem und maschinellem Feedback verwendet.

Der folgende Screenshot stammt aus der Best Practice des generativen Belohnungsmodells von DeepSeek. Bevor das Modell die Güte des Belohnungsmodells ausgibt, gibt es eine textuelle Erklärung für die Punktzahl. Der Vorteil davon ist, dass das Modell nicht nur die vorhandenen Antwort-Paare einfach bewerten kann, sondern auch erklären kann, warum es diese Wahl getroffen hat. Da es ein generatives Modell ist, hat es eine gewisse Generalisierungsfähigkeit. Bei der Inferenz können wir die Modellfähigkeit verbessern, indem wir mehrere Datenstichproben nehmen. Darüber hinaus gibt es in der Branche auch die Methode, das Large Language Model selbst als Belohnungsmodell zu verwenden. Diese Methode ist flexibler. Beispielsweise können wir in der Bewertung des Belohnungsmodells darauf achten, dass es sich auf spezifischere und feinere Dimensionen des Belohnungsmodells konzentriert, um die speziellen Anforderungen des Bereichs-Überwachungssignals in bestimmten Geschäftsszenarien zu erfüllen. Allerdings ist die Kosten dieser Methode relativ hoch, da es sich um eine generative Inferenz mit einem Large Language Model handelt. Im Vergleich zu einem Modell, das direkt Token-Werte ausgibt, ist die Kosten höher.

Der Kernalgorithmus und seine Durchbrüche

Der Kern des Algorithmus-Teils liegt in der Herkunft des Bewertungssignals, d.h. wie wir die Belohnungsfunktion tatsächlich gestalten. Aus der globalen Ansicht ist das gesamte System noch relativ komplex. Die Abbildung zeigt den gesamten Prozess des sehr klassischen und traditionellen PPO-Algorithmus, der von der Inferenz über die Bewertung bis zum Training reicht. Die folgende Abbildung teilt es mit zwei gestrichelten Linien in drei Teile auf. Dieser Vortrag wird sich auch um diese drei Teile drehen.

Zunächst der Inferenz-Teil oben links. Die Inferenz hier kann als die Ausführung des Inferenzmodells verstanden werden, d.h. der Prozess, in dem das Large Model basierend auf dem eingegebenen Prompt eine Antwort generiert. In diesem Prozess stammt die Hauptrechenlast aus dem Inferenz-Engine des Modells in der Vorverarbeitung (Profile) und Decodierung (Decoding). Dies ist tatsächlich der Prozess der Interaktion zwischen Modell und Umwelt. Wie wird dann nach der Interaktion trainiert? Dazwischen ist noch ein Bewertungsprozess involviert. Wir haben bereits kurz erwähnt, dass die traditionellste Methode die Nutzung von menschlichem Feedback ist, um durch ein Belohnungsmodell eine Annäherungslernmethode anzuwenden. Aber wie Sie im Laufe des Vortrags feststellen werden, gewinnt der Bewertungsteil in der Welt der Large Language Models, insbesondere in der RL, an Bedeutung und Zeitaufwand. Denn wir brauchen eine umfassendere und integriertere Methode, um die Fähigkeiten des Modells umfassend zu bewerten. Der mittlere Bewertungsprozess beinhaltet auch komplexe Interaktionen und Verifikationsprozesse mit der Umwelt, wie z.B. der Code-Ausführer.

Der Teil rechts ist der eigentliche Trainingsvorgang, wie wir ihn verstehen. Dieser Prozess ist eher dem traditionellen Pre-Training und Supervised Fine-Tuning (SFT) von Large Models ähnlich. Im traditionellen SFT und Pre-Training werden alle Daten offline und statisch vorbereitet. Bei RL werden alle Daten dynamisch durch den online-Inferenz- und Bewertungsprozess generiert. In diesem Trainingsvorgang sind auch mehrere Modelle gleichzeitig am Training beteiligt. Für den klassischen PPO-Algorithmus ist das erste Modell unser eigenes Modell. Über eine relativ komplexe, aber eigentlich nicht schwer zu verstehende PPO-Verlustfunktion, deren Hauptziel es ist, die Schrittweite und Amplitude der Aktualisierung zu begrenzen und gleichzeitig die Strategiefunktion basierend auf dem Vorteil zu aktualisieren, wenn der Gradient relativ sicher ist. Der Vorteil bezieht sich auf den durchschnittlichen Gütewert einer Handlung im Vergleich zu anderen Handlungen. Da PPO auf der Actor-Critic-Architektur basiert, gibt es auch ein Critic-Modell. Nachdem diese beiden Modelle trainiert wurden, werden sie über eine Hochgeschwindigkeitsverbindung zurück an das linke Inferenzmodell gesendet, um so einen sich ständig wiederholenden Mehrfachinteraktionsmodus zu bilden, damit das Modell seine Fähigkeiten online verbessern kann. Dies ist die traditionellste RLHF-Trainingsmethode.

In der anschließenden Praxis haben unsere Algorithmus-Entdeckungen und -Praxis zwei verschiedene Wege eingeschlagen. Zunächst haben wir gesehen, dass der PPO-Algorithmus zwar relativ komplex ist, aber Anfang des vergangenen Jahres, als RL gerade erst aufkam und die Komplexität des gesamten Systems hoch war, haben wir überlegt, dass, wenn die Signalquelle unseres BT-Belohnungsmodells nur auf Präferenzpaaren basiert, wir die Verlustfunktion des PPO-Algorithmus in eine andere Form gestalten können. Diese Form vermeidet das Training des Belohnungsmodells und die Verwendung der Critic-Funktion. In einigen Geschäftsszenarien hat diese Entdeckung relativ gute Ergebnisse erzielt. Ihr Vorteil besteht darin, dass wir das Training des Belohnungsmodells und die Vorteilsschätzung überspringen können und auch kein Critic-Modell für das Training und die Inferenz benötigen. So können wir die Güte von Präferenzpaaren in einigen speziellen Geschäftsszenarien einfach optimieren. Allerdings sind ihre Nachteile ebenfalls offensichtlich. Zunächst ist ihre Annahme sehr stark, d.h. unser Belohnungsmodell muss der BT-Annahme entsprechen, d.h. einer Annahme über ein gutes und ein schlechtes Paar. Aber im RL-Prozess ist diese Annahme manchmal zu streng, da in einigen Bereichen keine relative Gütevergleichung erforderlich ist, wie z.B. im mathematischen Bereich, in dem es absolute Werte gibt. Darüber hinaus ist die BT-Annahme für das Belohnungsmodell nicht unbedingt eine starke Annahme, solange das Belohnungssignal genau ist, kann es eingeführt werden. Gleichzeitig ist dies ein offline-Algorithmus, der keine dynamische Aktualisierung des Modells und die Inferenz neuer Stichproben für das Training während des Trainings involviert, daher neigt er manchmal zum Overfitting. Ein solcher Algorithmus, wie der DPO-Algorithmus, den Sie vielleicht oft gehört haben, hat mit der Reife des RL-Frameworks, der weiteren Verbesserung der Rechenleistung und dem tieferen Verständnis der RL-Technologie in den Hintergrund getreten.

Eine andere Entdeckung ist der kürzlich von DeepSeek R1 erfolgreich angewandte GRPO-Algorithmus. Er ist eine Weiterentwicklung des traditionellen PPO-Algorithmus. Die Hauptverbesserung liegt im Critic-Modell. Hier gibt es ein Problem. Wenn das Critic-Modell zur Schätzung verwendet wird, muss das Critic-Modell relativ viele historische Trajektorien gesehen haben, um auf algorithmischer Ebene eine unverzerrtere Schätzung vornehmen zu können. Andernfalls kann das Modell von der Critic-Funktion abgelenkt werden, was zu einer ungenauen Strategie-Lernung führt. Der GRPO-Algorithmus ist sehr interessant. Bei der Critic-Schätzung verwendet er nicht die Modell-Schätzungsmethode, sondern wiederholt den Inferenzprozess mehrmals und schätzt den Vorteil anhand der Beziehung zwischen Mittelwert und Standardabweichung. Nachdem der PPO-Algorithmus in diese Methode umgewandelt wurde, hat er in der RLHF-Zeit nicht viele Vorteile gezeigt

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Design, implementation and future development of reinforcement learning AI systems

Von RLxF-Theorie zur Industrialisierung

Der Kernalgorithmus und seine Durchbrüche