Das klassische PPO - Algorithmus: Ursprünglich von NeurIPS abgelehnt

Eine Ablehnung ist nicht gleichbedeutend mit einem Scheitern

Das ist wirklich überraschend.

PPO (Proximal Policy Optimization), ein klassischer Algorithmus, der später in RLHF und der Training von großen Modellen weit verbreitet wurde, wurde damals von NIPS 2017 abgelehnt.

Dieser Vorfall wurde kürzlich von John Schulman, dem Autor von PPO, selbst erwähnt. Er fasste diese Episode in einem Satz zusammen: PPO wurde von NIPS 2017 abgelehnt.

Dieser Artikel, der erstmals im Juli 2017 veröffentlicht wurde, schien damals nur ein einfacherer und für die Praxis besser geeigneter Strategieoptimierungsalgorithmus zu sein. Sein Ziel war es, die Stabilität von TRPO beizubehalten, gleichzeitig die Implementierungskomplexität zu verringern und das Training von Reinforcement Learning einfacher und praktikabler zu machen.

Nach einigen Jahren war es jedoch nicht die traditionellen Reinforcement Learning - Aufgaben wie Atari-Spiele oder Robotersteuerung, sondern die großen Sprachmodelle, die PPO auf eine größere Bühne katapultierten.

Von RLHF bis hin zum heutigen RLVR ist PPO zu einem unverzichtbaren Basisalgorithmus in der Nachbearbeitung von großen Modellen geworden. Laut Schulman erlebte PPO in der Ära der Large Language Models (LLMs) eine zweite Welle der Popularität, und die Gründe dafür gingen sogar über die Erwartungen des ursprünglichen Artikels hinaus.

Es scheint nicht so, dass Schulman über die Ablehnung des Artikels damals klagt, sondern eher wie eine nachträgliche Betrachtung: Die wahre Wirkung einer Technologie entfaltet sich oft auf eine Weise, die der Erfinder ursprünglich nicht vorausgesehen hat.

Nachdem man dies gelesen hat, fragt sich natürlich: Warum wurde PPO damals abgelehnt?

Schulman gab später die Erklärung, dass der Artikel damals als wenig innovativ angesehen wurde und die Verbesserung gegenüber bestehenden Basismethoden nicht signifikant genug war.

Ein Netizen kommentierte: "Dies spiegelte eigentlich eine Diskrepanz zwischen akademischer Bewertung und realen industriellen Bedürfnissen wider. Die akademische Welt legt oft mehr Wert auf Neuheit und Verbesserungen gegenüber Basismethoden in kleinen, kontrollierten Experimentumgebungen, während die reale Welt sich eher darum kümmert, ob eine Methode auf größere Skalen erweitert werden kann, in komplexen Systemen stabil bleibt und tatsächlich funktioniert."

Schulman reagierte auch sehr gelassen. Er sagte, dass das schon sehr lange her sei und er hoffe, dass die akademische Welt in den letzten Jahren diese "einfache, aber skalierbare" Ästhetik allmählich verstanden und integriert habe.

Was ihn wirklich überraschte, war, dass der Artikel über PPO und die darin enthaltene Zielfunktion so lange eine Wirkung behalten konnten. Es ist oft schwierig, am Anfang zu beurteilen, ob eine algorithmische Änderung nur kurzfristig und schnell vergessen wird oder ob sie langfristig im System verbleibt und zu einem unvermeidlichen Basisbaustein wird.

Die Geschichte von PPO zeigt genau dies.

Tatsächlich ist es nicht nur bei PPO so. Viele Arbeiten in der Geschichte der Künstlichen Intelligenz, die später als sehr einflussreich erwiesen wurden, wurden bei ihrer ersten Einreichung von Top - Konferenzen abgelehnt.

LSTM: 1996 von NIPS abgelehnt, damals als zu komplex und biologisch unplausibel angesehen. Später wurde es jedoch zu einer Kerntechnologie bei Sequenzmodellierungsaufgaben wie Spracherkennung und maschineller Übersetzung.

SIFT: Wurde von ICCV 1997 und CVPR 1998 abgelehnt, weil die technischen Schritte zu aufwändig und nicht elegant genug waren. Es dominierte jedoch die Computervision in der Prä - Deep - Learning - Ära über ein Jahrzehnt lang.

Dropout: 2012 von NIPS abgelehnt, als eine Art technischer Hack angesehen und die theoretische Erklärung wurde als nicht streng genug befunden. Später wurde es jedoch zu einer der wichtigsten Regularisierungsmethoden in tiefen neuronalen Netzen und erhielt den NeurIPS Time - Test Award.

Manchmal ist die Zeit der strengste und fairesteste Gutachter.

Dieser Artikel stammt aus dem WeChat - Account "Machine Heart" (ID: almosthuman2014). Autor: RL - Beobachter. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das klassische PPO-Algorithmus: Einst von NeurIPS abgelehnt