StartseiteArtikel

Jason Wei, ein Kernforscher von OpenAI, der erst kürzlich seinen Ausscheiden bekanntgegeben hat, hat die Grenzen von RL definiert.

36氪的朋友们2025-07-16 19:13
Meta hat Jason Wei und andere Kernforscher von OpenAI abgeworben.

Am 16. Juli berichtete ein erfahrener Journalist auf dem Gebiet der Künstlichen Intelligenz von der ausländischen Medienplattform Wired, dass zwei Quellen bestätigten, dass der bekannte Forscher von OpenAI, Jason Wei, und ein weiterer Forschungswissenschaftler, Hyung Won Chung, OpenAI verlassen und zu Meta wechseln werden.

Diesmal hat Meta wirklich Kernmitglieder von OpenAI abgeworben.

Meta hat die Kernmitglieder von OpenAI abgeworben

Beide Personen, von denen berichtet wurde, dass sie OpenAI verlassen, waren tiefergehend an Kernprojekten von OpenAI beteiligt. Jason Wei war ein führender Denker bei den Transformationsprozessen von OpenAI, während Hyung ein Kernarchitekt von OpenAI war.

Jason Wei: Pionier bei der Verstärkungslernen bei OpenAI

Jason Wei war besonders gut darin, revolutionäre Konzepte zu entdecken und zu verbreiten, die zwar einfach erscheinen, aber die Fähigkeiten großer Sprachmodelle grundlegend verändern können. Dadurch eröffnete er für das gesamte Feld neue Forschungsansätze.

Beispielsweise war Jasons Wei bekannteste Leistung die "Chain-of-Thought" (CoT)-Prompting-Methode, die im Grunde der Grundstein für alle nachfolgenden KI-Schlussfolgerungen wurde.

Seine Arbeit bei OpenAI war eine natürliche Fortsetzung dieses Weges. Er war an der Entwicklung der o1- und Deep Research-Modelle beteiligt, deren Kern die Schlussfolgerungsfähigkeit war.

Darüber hinaus war er auch einer der frühen Pioniere der Feinabstimmungstechnologie, die wir heute kennen, und versuchte bereits in der NLP-Zeit, Feinabstimmungen durchzuführen. Er war einer der Kernmitglieder des FLAN (Finetuned Language Models Are Zero-Shot Learners)-Projekts.

Diese Forschung zeigte, dass die Feinabstimmung eines Modells auf einer großen Sammlung von NLP-Aufgaben, die in natürlicher Sprache beschrieben sind, seine Fähigkeit bei Aufgaben, die es noch nicht gesehen hat, im Null-Shot-Szenario erheblich verbessern kann.

Was die seit ChatGPT immer wieder diskutierten "Emergent Abilities" angeht, so wurden diese erstmals in einem 2022 von ihm als Erstautor verfassten Papier gründlich untersucht.

Dieser Artikel stellte fest, dass bestimmte Fähigkeiten in kleinen Modellen nicht vorhanden sind, aber in großen Modellen unvorhersehbar auftauchen können. Dies bedeutet, dass die weitere Skalierung von Modellen möglicherweise noch unbekannte Fähigkeiten freischalten kann.

Dieser Artikel bot dem gesamten Feld einen wichtigen konzeptionellen Rahmen für die "Skalierung".

Aufgrund dieser wenigen Forschungen und seiner Rolle als Grundlegend Mitwirkender an o1 kann man Jasons Wei einzigartige Position erkennen. Er war in der Lage, die Forschungsrichtungen mit dem höchsten Hebelwirkungspotenzial präzise zu identifizieren. Dies wurde sowohl durch die CoT-Methode, die Befehlsfeinabstimmung als auch die Emergent Abilities perfekt demonstriert.

Sein Weggang bedeutet daher nicht nur, dass OpenAI einen Forscher verliert, der in der Lage war, komplexe Projekte durchzuführen, sondern auch einen "Visionär", der in der Lage war, die gesamte Branche zu verändern.

Hyung Won Chung: Kernmitglied des OpenAI Agentenprojekts

Hyung Won Chung war eher ein "Full-Stack"-KI-Architekt.

Seine Fachkenntnisse reichten von den untersten Ebenen des Trainingssystems bis hin zu den obersten Ebenen der Modellfähigkeiten und schließlich zu den Anwendungen von Agenten. Er war die Schlüsselbrücke zwischen Theorie und Praxis.

Vor seinem Eintritt bei OpenAI war er am Google Brain am Aufbau von Infrastrukturen für das Massentraining beteiligt.

Er war einer der Kernmitwirkenden an T5X, einem auf JAX basierenden Trainingsframework, das zur Ausbildung des Google PaLM-Modells verwendet wurde.

Bei OpenAI wurde Chung schnell zu einem Schlüsselmitglied in seinen Kernprojekten. Auf seiner persönlichen Website wird er als "Grundlegend Mitwirkender" (Foundational Contributor) an den o1-preview-, o1- und Deep Research-Modellen genannt. Darüber hinaus war er auch einer der Autoren des GPT-4-Technischen Berichts.

Noch wichtiger ist, dass sein aktuelles Forschungsschwerpunkt bei OpenAI "Schlussfolgerungen und Agenten" (reasoning and agents) ist. Er leitete die Ausbildung des wichtigsten Agent Codex mini-Modells von OpenAI.

Was seine Einschätzung von Agenten angeht, lässt sich dies aus einem Vortrag schließen, den er im Juni 2024 an der Stanford University hielt. Der Vortrag basierte auf seiner Beobachtung, wie sich der Transformer von einer Architektur mit Encoder und Decoder hin zu einer reinen Decoder-Architektur entwickelt hat, und brachte einige Ideen für die Entwicklung von KI-Produkten.

Im Folgenden ist der Inhalt eines Tweets, den er nach dem Vortrag veröffentlichte. Dies ist im Grunde die ursprüngliche Version der Goldregel "Weniger Struktur, mehr Intelligenz" für die aktuelle Agentenentwicklung.

Für die Künstliche Intelligenz gibt es zwei treibende Kräfte: die exponentielle Abnahme der Rechenkosten und die schrittweise Erweiterung von mehr End-to-End-Modellen, um diese Rechenressourcen zu nutzen.

Das bedeutet jedoch nicht, dass wir die End-to-End-Methode blind verwenden sollten, da diese Methode überhaupt nicht praktikabel ist. Stattdessen sollten wir unter den aktuellen Bedingungen von 1) Rechenleistung, 2) Daten, 3) Lernzielen und 4) Architekturebene eine "optimale" Struktur finden. Mit anderen Worten, was ist die End-to-End-Struktur, die gerade erst Anzeichen von Leben zeigt? Diese Strukturen sind skalierbarer und werden schließlich bei größerer Skalierung die Modelle mit komplexeren Strukturen übertreffen.

Wenn sich später einer oder mehrere dieser vier Faktoren verbessern (z. B. wenn wir mehr Rechenressourcen erhalten oder eine skalierbarere Architektur finden), sollten wir die zuvor hinzugefügten Strukturen erneut überprüfen und diejenigen entfernen, die eine weitere Skalierung behindern, und diesen Prozess wiederholen.

Als Community lieben wir es, Strukturen hinzuzufügen, aber wir sind nicht so geneigt, sie zu entfernen. Wir müssen mehr "Aufräumarbeiten" leisten.

Sein Weggang wird zweifellos einen schweren Schlag für die Entwicklung von OpenAI Agenten darstellen.

Am Tag, an dem berichtet wurde, dass er OpenAI verlässt, veröffentlichte Jason Wei am 15. Juli einen Blogbeitrag, in dem er die Grenzen der KI-Fähigkeiten neu definierte. Dies ermöglicht uns einen Einblick in die Voraussagen dieses OpenAI-Denkers, der sich auf Schlussfolgerungen und Verstärkungslernen konzentriert.

Im Artikel nennt er das Framework zur Vorhersage der Grenzen zukünftiger KI-Fähigkeiten Verifizierer-Gesetz (Verifier's Law).

In der Vergangenheit sprachen wir eher vage über die zunehmende "Intelligenz" der KI, was sehr unklar war. Dieser Artikel gibt jedoch einen klaren Kriterium: Die Schwierigkeit, eine Aufgabe mit KI zu lösen, hängt nicht davon ab, wie schwierig es ist, sie zu lösen, sondern wie einfach es ist, das Ergebnis zu verifizieren.

Diese Einsicht ist wahrscheinlich die gleiche wie die der meisten Leute, die sich mit Verstärkungslernen befassen. Aber das Verifizierer-Gesetz (Verifier's Law) geht noch tiefer in die Verifizierung ein, indem es fünf verifizierbare Kriterien festlegt.

Basierend auf diesem Rahmen für die Grenzen, in denen die KI schnell Fortschritte machen kann, und dem Erfolg von AlphaEvolve kann dieser Artikel sogar die Kernpunkte für die zukünftige Zusammenarbeit zwischen Menschen und KI aufzeigen, nämlich ein komplexes und unklares Problem aus der realen Welt in eine Aufgabe umzuwandeln, die von der KI verstanden und optimiert werden kann und deren Ergebnis klar verifiziert werden kann.

Im Folgenden ist der vollständige Text des Blogbeitrags. Die unterstrichenen Teile sind erklärende Anmerkungen des Redakteurs:

Asymmetrie der Verifizierung

Die Asymmetrie der Verifizierung (Asymmetry of Verification) besagt, dass es bei einigen Aufgaben viel einfacher ist, zu überprüfen, ob eine Lösung richtig ist, als die Aufgabe von Grund auf neu zu lösen. Mit der zunehmenden Reife der Verstärkungslernen (RL) im Allgemeinen wird die Asymmetrie der Verifizierung zu einem der wichtigsten Konzepte im Bereich der Künstlichen Intelligenz (AI).

Verständnis der Asymmetrie der Verifizierung anhand von Beispielen

Wenn man aufpasst, findet man die Asymmetrie der Verifizierung überall. Hier sind einige typische Beispiele:

Sudoku und Kreuzworträtsel: Das Lösen dieser Rätsel kann viel Zeit in Anspruch nehmen, da man viele Kandidatenlösungen unter verschiedenen Bedingungen ausprobieren muss. Das Überprüfen einer gegebenen Lösung ist jedoch eine Leichtigkeit.

Webseitenentwicklung: Das Schreiben des Codes für eine Website wie Instagram kann ein Team von Ingenieuren mehrere Jahre dauern. Das Überprüfen, ob die Website funktioniert, kann jedoch jeder normale Mensch schnell erledigen.

Webseiten-Leseverständnisaufgaben (BrowseComp): Das Lösen solcher Aufgaben erfordert normalerweise das Durchsuchen von Hunderten von Websites, aber das Überprüfen einer gegebenen Lösung ist normalerweise viel schneller, da man direkt nachprüfen kann, ob die Lösung die Bedingungen erfüllt.

Einige Aufgaben haben eine fast symmetrische Verifizierung (near-symmetry of verification): Die Zeit, die für die Verifizierung einer Lösung benötigt wird, entspricht annähernd der Zeit, die für das Lösen der Aufgabe selbst benötigt wird. Beispielsweise ist die Arbeit, die für die Verifizierung der Lösung einer mathematischen Aufgabe (z. B. die Addition von zwei 900-stelligen Zahlen) erforderlich ist, fast so groß wie die Arbeit, die man selbst aufwenden würde, um die Aufgabe zu lösen. Ein weiteres Beispiel sind einige Datenverarbeitungsprogramme: Das Nachvollziehen und Überprüfen des Codes eines anderen ist in etwa so zeitaufwändig wie das Schreiben der Lösung selbst.

Interessanterweise gibt es auch Aufgaben, bei denen die Verifizierungszeit die Zeit für die Lösung der Aufgabe um ein Vielfaches übersteigen kann. Beispielsweise kann das Überprüfen aller Aussagen in einem Artikel länger dauern als das Schreiben des Artikels selbst (dies bringt an das Brandolini-Gesetz in Erinnerung). Dies gilt auch für viele wissenschaftliche Hypothesen: Die Überprüfung ist schwieriger als die Formulierung. Beispielsweise ist es einfach, ein neues Diätprogramm ("Nur Bison und Brokkoli essen") vorzuschlagen, aber es kann Jahre dauern, um zu überprüfen, ob diese Diät für die Allgemeinheit gesund ist.

// Redaktionelle Anmerkung

Das Brandolini-Gesetz (Brandolini's Law), auch als "Prinzip der Unsinnsasymmetrie" (The Bullshit Asymmetry Principle) bekannt, besagt, dass es viel mehr Energie erfordert, einen Unsinn oder eine Lüge zu widerlegen als ihn zu verbreiten. Dies beschreibt genau die Aufgaben, bei denen die Verifizierung schwieriger als die Lösung (oder die Erstellung) ist.

Verbesserung der Asymmetrie der Verifizierung

Eine der wichtigsten Erkenntnisse über die Asymmetrie der Verifizierung ist: Durch Vorarbeiten an einer Aufgabe kann die Asymmetrie verbessert werden. Beispielsweise ist es, wenn man die Lösung einer mathematischen Wettbewerbsaufgabe hat, eine Kleinigkeit, eine vorgelegte Lösung zu überprüfen. Ein weiteres gutes Beispiel sind einige Programmieraufgaben: Obwohl es mühsam ist, Code zu lesen und seine Richtigkeit zu überprüfen, kann man mit ausreichend vielen Testfällen schnell überprüfen, ob eine gegebene Lösung korrekt ist.