Warum ist Reinforcement Learning in Silicon Valley so populär? Ein Schlüssel-Schritt zur AGI

Meta hat Scale AI übernommen, hinter diesem Vorfall verbirgt sich Multimodalitätsangst.

RL (Reinforcement Learning - Verstärkendes Lernen) war in der Zeit von AlphaGo ein Heißstoff in den Suchmaschinen und war dann jahrelang in der Welle der Großen Modelle in den Hintergrund gerückt. Heute wird die Verwendung von Verstärkendem Lernen für die technische Architektur sowohl in der Technologie von AI Agenten als auch in der Modellvorabtrainingsphase zur vorherrschenden Tendenz in Silicon Valley. Spitzenkünstler auf dem Gebiet des Verstärkenden Lernens werden zu den begehrtesten Talenten für die Silicon Valley - Giganten und Investoren.

In dieser Ausgabe von "Silicon Valley 101" setzt der Moderator Hongjun das Gespräch mit Zhu Zheqing, dem Gründer von Pokee.ai und dem ehemaligen Leiter des Teams für Anwendungen von Verstärkendem Lernen bei Meta AI, fort. Wir werden über folgende Themen diskutieren:

1. Welche neuen technologischen Richtungen gibt es bei der Evolution von Modellen und der Kommerzialisierung von Agenten?

2. Welche geschäftliche Logik steckt hinter Meta's Übernahme von ScaleAI?

3. Wo befindet sich das Zentrum der Spitzenkünstler für Verstärkendes Lernen in Silicon Valley?

Im Folgenden finden Sie die besten Passagen aus diesem Gespräch:

01 Wo liegt die wahre Schwelle zwischen den fünf Ebenen des Verstärkenden Lernens und AGI?

Hongjun: Ich habe bemerkt, dass in der neuesten OpenAI - Präsentation auch die Verwendung der unterliegenden Architektur von RL (Reinforcement Learning - Verstärkendes Lernen) erwähnt wurde. Ich weiß, dass die Architektur von RL auch Ihr Spezialgebiet ist. Können Sie kurz erklären, was die Vorteile der RL - Architektur sind und wofür sie steht?

Quelle: Scribbr

Zhu Zheqing: Ich denke, es muss zunächst kurz erklärt werden, dass es viele Arten von RL - Architekturen gibt. Es gibt solche, die vollständig auf LLMs (Large Language Model - Große Sprachmodelle) basieren und auf Token (Markierungen) beruhen, und es gibt auch die Art, wie wir es machen, bei der das gesamte "action" (Verhalten) so gestaltet ist, dass der Agent nicht mehr auf Sprachmarkierungen als Entscheidungsfaktoren basiert, sondern auf einem anderen Verstärkenden Lernansatz.

Es gibt keine bessere oder schlechtere Methode zwischen diesen beiden Entscheidungsansätzen, und ihre Anwendungsfälle sind auch unterschiedlich. Allgemein gesprochen wird das RL - Framework (Rahmenwerk) für das Training von Agenten eingesetzt, weil es ein Ziel gibt. Ob es sich um Deep Research (Tiefgehende Forschung) handelt, die möglicherweise nur die Generierung von Markierung für Markierung benötigt, um so viele relevante Informationen wie möglich zu suchen und dann einen gesamten Bericht zu erstellen, oder um ein agentisches System wie Pokee, bei dem mein Werkzeug möglicherweise eine markierte Entität ist und ich möglicherweise mehrere Werkzeuge kombinieren kann, um ein Problem zu lösen - alles ist zielorientiert. Ein großer Unterschied zur bisherigen LLM - Trainingsphase besteht darin, dass das Training des LLMs selbst durch eine große Menge von überwachten Lerninformationen (supervised learning data) erfolgen kann, d. h. durch ein auto - regressives (selbstregressives) Trainingsverfahren, während dies bei agentischen Systemen schwierig ist. Deep Research kann immer noch einige Daten verwenden, aber wenn es um das "tool calling" (Werkzeugaufruf) geht, kann der Aufruf eines einzelnen Werkzeugs durch Daten erfolgen, aber wenn es um eine Kette von Werkzeugen geht, wird es schwierig, ein selbstregressives Training durchzuführen. Wenn ich beispielsweise eine Aufgabe habe, die 50 Werkzeugaufrufe erfordert, und ich diese Daten wiederholend zum Training einsetze, ist es unwahrscheinlich, dass jemand diese Daten jemals gesehen hat, und es ist auch unmöglich, diese Daten im Internet zu finden, da niemand solche Daten generiert hat. Wenn Sie also diese Daten verwenden möchten, müssen Sie sie manuell annotieren.

Quelle: Technologieforum

Hongjun: Welche Aufgaben können leichter durch überwachtes Feinabstimmungslearning (Supervised Fine - Tuning) gelöst werden, und welche Aufgaben erfordern unbedingt das RL (Verstärkendes Lernen)? Ich denke, die Aufgaben, auf die sich diese beiden Ansätze beziehen, sind auch unterschiedlich.

Zhu Zheqing: Ja, die gegenwärtige Meinung ist, dass für viele bestehende Kollaborationsdaten, Texte, Videos und Bilder, also für eine Reihe von Aufgaben mit einer großen Menge von annotierten Daten, in der Regel überwachtes Lernen ausreicht, um ein hohes Niveau zu erreichen. Anschließend kann durch das RLHF (Reinforcement Learning from Human Feedback - Verstärkendes Lernen basierend auf menschlichem Feedback) in der Nachtrainingsphase die Leistung noch verbessert werden, um die Ergebnisse besser den menschlichen Präferenzen zu entsprechen. Der Grund dafür ist, dass in einer großen Menge von überwachten Daten sowohl gute als auch schlechte Daten gemischt sind, und nicht jeder Datenpunkt entspricht den menschlichen Vorlieben. Das Training führt zu einer Generalisierung über alle Internetdaten. Das nächste Ziel ist es, das Modell so feinzustellen, dass es eher den menschlichen Vorlieben entspricht, und dies ist das Ziel von RLHF.

Warum wird jetzt sogar von RL - Pretraining (Verstärkendes Lernen in der Vorabtrainingsphase) gesprochen? Der Grund liegt darin, dass viele Aufgaben zielorientiert sind.

Hongjun: Welche Unternehmen arbeiten an RL - Pretraining?

Zhu Zheqing: Im Moment arbeiten nur Forschungsgruppen an RL - Pretraining, aber wir haben bereits begonnen, etwas Ähnliches wie RL - Pretraining zu tun. Aber es gibt noch einige Vorwissen, das nicht durch Vorabtraining erworben werden kann, und es werden viele Trainingsprozesse weggelassen.

Welches Problem soll durch ein auf Verstärkendem Lernen basierendes Trainingssystem gelöst werden? Viele Aufgaben sind zielorientiert, wie z. B. das Schreiben von Code, Mathematik, Physik, Finanzdienstleistungen, Stadtplanung, Operationen, Forschung, Supply Chain - alles hat ein klares Ziel, und die Weltmechanismen sind auch vollständig. Wenn A geschieht, dann folgt B. In solchen Fällen ist das Vorabtraining nicht unbedingt erforderlich. Erstens, in diesen speziellen, zielorientierten Szenarien gibt es in den meisten Fällen keine Daten. Mathematik und Code sind die einzigen beiden Szenarien, in denen es möglicherweise relativ mehr Datenpunkte gibt. Außer diesen beiden Fällen gibt es bei den anderen Punkten, die ich erwähnt habe, kaum Daten, und es ist schwierig, im Internet eine große Menge von Daten für das Training zu finden.

Zweitens, im Wesentlichen handelt es sich um Probleme, die sehr allgemein sein müssen. Die in der Literatur bereits vorhandenen Daten sind in den meisten Fällen auf häufig auftretende Code - und Mathematikprobleme konzentriert. Höhere Mathematikprobleme sind nie aufgetaucht, und es muss daher eine counterfactuale (kontrafaktische) Methode verwendet werden, d. h. ich muss Code, mathematische oder physikalische Pläne generieren, die bisher noch nicht aufgetaucht sind. Dann muss ich einen Validator (Prüfmechanismus) verwenden, um zu überprüfen, ob ich richtig liege, und dann das System selbsttrainieren. Diese Trainingsmethode eignet sich sehr gut für Anwendungsfälle, in denen es einen Prüfmechanismus gibt und genaue Entscheidungen getroffen werden können, und es kann dann optimiert werden. Dies ist der Moment, in dem das RL (Verstärkendes Lernen) am besten funktioniert. Viele Forschungen haben bereits erwähnt, dass das größte Problem derzeit die Überprüfung ist. Wenn man einen guten Verifizierer finden kann, kann man davon ausgehen, dass das Problem gelöst ist, da die Optimierung des Verifizierers durch RL erfolgen kann. Im Folgenden möchte ich etwas sagen, das möglicherweise nicht allgemein akzeptiert wird. Über dem Verifizierer müssen wir möglicherweise als nächstes die Generalisierbarkeit des Verifizierungsmodells oder des Verifizierungsmechanismus verbessern, und wenn die Ausgabe des Agents von dem abweicht, was die Menschen tatsächlich sehen, müssen wir den Verifizierer so anpassen, dass er die Ausgabe besser überprüfen kann. Wenn jemand dies schafft, können wir möglicherweise einen Schritt in Richtung Superintelligenz machen, da die generierten Informationen möglicherweise über das menschliche Wissen hinausgehen.

Hongjun: Könnte dies das Problem der Halluzinationen lösen?

Zhu Zheqing: Ich denke, das Problem der Halluzinationen ist ein anderes. Diese Art von System kann leicht Halluzinationen produzieren. Genauso wie Alpha Zero (ein allgemeines Verstärkendes Lernverfahren, entwickelt von DeepMind) damals die Menschen schlagen konnte, indem es Wege ging, die die Menschen normalerweise nicht vorhersagen konnten. Möglicherweise kann durch diesen Mechanismus sogar eine neue physikalische Theorie entdeckt werden, und es können Informationen generiert werden, die bisher noch nicht von Menschen entdeckt wurden. Dies könnte möglicherweise der Schlüssel für den nächsten Schritt in Richtung Superintelligenz sein, aber bis jetzt gibt es noch keine großen Durchbrüche.

Hongjun: Ja, was Sie gerade gesagt haben, bringt mich auf die fünf Ebenen von AGI (Artificial General Intelligence - Künstliche Allgemeininteiligenz), die OpenAI definiert hat. Tatsächlich wurde eine Vereinbarung zwischen OpenAI und Microsoft während des Machtkampfes zwischen den beiden Parteien preisgegeben. Ich denke, der gesamte Weg verläuft in die Richtung, die Sie beschrieben haben. Die erste Ebene von AGI ist der Chatbot, wie der Dialog - AI von ChatGPT.

Quelle: OpenAI

Die zweite Ebene ist der AI - Agent, der nicht nur denken kann, sondern auch in der Lage ist, die Menschen bei der Ausführung von mehrstufigen, selbstständigen Operationen zu ersetzen und eine Reihe von Aufgaben zu erfüllen, wie z. B. das Buchen von Flugtickets und Hotels für Reisen. Es scheint, dass sich die Entwicklung auch in diesem Jahr in diese Richtung bewegt. Die dritte Ebene ist der innovative AI, der als Innovator bezeichnet wird. Er muss über kreatives Denken verfügen und in der Lage sein, neue Werkzeuge oder Lösungen zu entwickeln. Beispielsweise kann er in der Medikamentenentwicklung ein neues Molekül entdecken. An diesem Punkt kann der AI bereits Lösungen finden, die die Menschen nicht gedacht haben, und er kann selbst innovative Lösungen entwickeln. Wie Sie gerade gesagt haben, könnte der AI in Bezug auf kreative Probleme möglicherweise über die menschlichen Fähigkeiten hinausgehen und Lösungen finden, die die Menschen nicht gedacht haben. Die vierte Ebene ist der organisatorische oder übermenschliche AI, der in der Lage ist, die gesamten Verantwortlichkeiten einer Organisation zu übernehmen und weit über den Menschen hinausgeht, ähnlich wie ein "Super - AGI".

Zhu Zheqing: Es muss festgestellt werden, dass ihre Definition der AI - Fähigkeiten eher auf die Produktfähigkeit als auf die technische Fähigkeit ausgerichtet ist. In gewisser Weise gibt es keinen großen Sprung zwischen der zweiten und der dritten Ebene. Die erste Ebene hängt von der Definition ab, da ein Chatbot sehr einfach sein kann oder auch so komplex wie die Chatbots, die wir heute kennen. Ich denke auch, dass es keinen großen Unterschied zwischen der vierten und der fünften Ebene gibt. Der größte Unterschied besteht zwischen der dritten und der vierten Ebene, und der Kern liegt in der Schwierigkeit der Überprüfung. Um es an einem menschlichen Beispiel zu verdeutlichen: Die menschliche Lernweise ist ähnlich wie das Verstärkende Lernen. Wenn Sie als Kind etwas lernen, können Sie nur Dinge beurteilen, die sich in Ihrem Wissensbereich befinden. Wenn Sie beispielsweise die Addition gelernt haben, können Sie nur beurteilen, was 1 + 1 oder 2 + 2 ist, aber Sie können nicht direkt beurteilen, was 3 - 2 ist. Dieser Schlussfolgerungsprozess kann nicht allein durch das innere Wissen verbessert werden. Was wir jetzt als verifizierbar bezeichnen, wie Verstärkung und Feineinstellung, sind alle Wissensiterationen, die durch ein inneres Überprüfungssystem erfolgen können. Wenn die Überprüfung festgelegt ist, können Sie durch diese Überprüfung ständig verbessern, oder wenn ich Ihnen ein bestimmtes Überprüfungswissen vorab gegeben habe, können Sie anhand dieses Wissens verbessern. Wenn ein Agent in der Lage ist, 20 - stellige Additionen und Subtraktionen durchzuführen, aber er die Subtraktion noch nie gesehen hat, kann er nicht beurteilen, ob eine Subtraktion richtig oder falsch ist.

Hongjun: Ich denke, das trifft auch auf Menschen zu. Angenommen, ich habe Mathematik studiert, aber ich kenne die Grundlagen der Biologie nicht. Dann ist es für mich schwierig, mein Wissen auf die Biologie zu übertragen.

Zhu Zheqing: Ja, deshalb sind die beiden schwierigsten Punkte:

1. Wie kann man anhand einer einfachen menschlichen Beschreibung, wie z. B. die Beziehung zwischen Subtraktion und Addition, die Überprüfung von A zu B herleiten? Wenn man dies schafft, kann die Generalisierbarkeit der Agent - Überprüfung auf die nächste Stufe gehoben werden.

2. Kann der Agent auf der Grundlage seines vorhandenen Wissens und der Selbstexploration die zukünftige Überprüfung von Informationen verbessern? Dies ist ebenfalls sehr schwierig. Wenn Sie beispielsweise wissen, dass die meisten Basen und Säuren Kohlendioxid bilden, können Sie dann die Eigenschaften von Kohlendioxid verstehen und zukünftige Probleme in Bezug auf Kohlendioxid beurteilen? Dies ist ebenfalls sehr schwierig. Wenn in Zukunft ähnliche Ergebnisse von Agenten auftreten, ist es ebenfalls sehr schwierig, zu beurteilen, ob diese Ergebnisse richtig oder falsch sind.

Hongjun: Wenn wir von den fünf Ebenen von AGI sprechen, ist der Übergang von der dritten Ebene (Agent - AI) zur vierten Ebene (Innovative AI) möglicherweise der Zeitpunkt, in dem der AI von einem Niveau unterhalb des menschlichen Niveaus zu einem Niveau über dem menschlichen Durchschnittsniveau oder sogar über dem besten menschlichen Niveau gelangt.

Zhu Zheqing: Ja. Der Unterschied zwischen der dritten und der vierten Ebene ist somit viel größer als der Unterschied zwischen der

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Warum ist Reinforcement Learning in Silicon Valley so populär? Ein Schlüssel-Schritt hin zur AGI

01 Wo liegt die wahre Schwelle zwischen den fünf Ebenen des Verstärkenden Lernens und AGI?