StartseiteArtikel

Stoppen Sie die RL-Forschung, sagt ein ehemaliger OpenAI-Forscher: Das Internet ist die einzige wirklich wichtige Technologie.

学术头条2025-07-15 18:12
Transformers ist ein Störfaktor.

Reinforcement Learning (RL) wird als ein notwendiger Bestandteil für die Realisierung von General Artificial Intelligence (AGI) angesehen.

Dennoch ist es laut dem ehemaligen OpenAI-Forscher Kevin Lu derzeit schwierig, mit RL einen ebenso bedeutenden Durchbruch wie von GPT-1 zu GPT-4 zu erzielen. Er meint, man sollte “die RL-Forschung einstellen und stattdessen sich der Produktentwicklung widmen”.

Sein Argument ist einfach und klar: Die Technologie, die den großen Wandel in der Künstlichen Intelligenz (KI) vorangetrieben hat, ist das Internet, nicht die Transformers.

In einem Artikel mit dem Titel “The Only Important Technology Is The Internet” schrieb er:

“In einer Low-Data-Umgebung (kleine Datenmengen) sind Transformers wertlos.”

Wir fehlen an den generischen Datenquellen, die für RL erforderlich sind … Was wirklich spannend wäre, wäre es, neue Datenquellen für RL zu finden (oder zu erschaffen)!

Das Internet selbst ist eine wichtige Überwachungsquelle mit einer enormen Vielfalt an Modellen und eine Abbildung der Menschheit.

Das Internet ist die Technologie, die tatsächlich die Skalierbarkeit von KI-Modellen ermöglicht.”

Im Artikel diskutiert er ausführlich die Frage: Wenn das Internet das Gegenstück zur “Next-Token-Prediction” ist, was wäre dann das Gegenstück von RL?

“Wir sind noch weit davon entfernt, das richtige Gegenstück von RL zu entdecken.”

Abbildung |

Academic Headlines hat das Interviewinhalt unter Beibehaltung der ursprünglichen Bedeutung geeignet gekürzt und zusammengefasst. Folgendes ist der Inhalt:

Die Fortschritte in der KI werden oft auf bahnbrechende Artikel wie Transformers, RNNs oder Diffusion zurückgeführt, aber der grundlegende Engpass der KI, die Daten, wird ignoriert. Was bedeutet es also eigentlich, gute Daten zu haben?

Wenn wir wirklich die Entwicklung der KI vorantreiben wollen, sollten wir nicht die Optimierungstechniken der KI untersuchen, sondern das Internet. Das Internet ist die Technologie, die tatsächlich die Skalierbarkeit von KI-Modellen ermöglicht.

Transformers sind eine Ablenkung

“Inspiriert durch die raschen Fortschritte, die durch architektonische Innovationen erzielt wurden (von AlexNet zu Transformer in fünf Jahren), haben viele Forscher nach besseren architektonischen Priors gesucht. Menschen haben gewettet, dass sie eine bessere Architektur als Transformer entwickeln können. Tatsächlich wurden seit Transformer tatsächlich bessere Architekturen entwickelt — aber die Frage ist, warum wir seit GPT-4 kaum noch “fühlen”, dass es ähnliche enorme Verbesserungen gibt?

1. Paradigmenwechsel

Compute-bound. Es war eine Zeit, in der sich die Methoden mit zunehmenden Rechenressourcen verbesserten, und effizientere Methoden bessere Ergebnisse erzielten. Der Schlüssel bestand darin, die Daten so effizient wie möglich in das Modell zu “stopfen”. Diese Methoden erzielten nicht nur bessere Ergebnisse, sondern schienen auch mit zunehmender Größe stetig zu verbessern.

Data-bound: Tatsächlich ist die Forschung nicht sinnlos. Seit Transformer hat die Forschungsgemeinschaft bessere Methoden entwickelt, wie z. B. SSMs (Albert Gu et al., 2021) und Mamba (Albert Gu et al., 2023) und viele andere. Aber wir halten sie nicht für “unbedingt besser”: Bei einer gegebenen Trainingsrechnung sollten wir immer noch ein besser funktionierendes Transformer-Modell trainieren.

Aber bei begrenzten Daten gibt es mehr Auswahlmöglichkeiten: Die Leistung aller Methoden wird schließlich konvergieren! Deshalb sollten wir die Methode wählen, die am besten für die Inferenz geeignet ist, was möglicherweise eine Variante des subquadratischen Attention-Mechanismus ist. Bei der Inferenz werden diese Methoden wahrscheinlich bald wieder in den Mittelpunkt rücken.

2. Was sollten Forscher tun?

Nehmen wir an, dass wir nicht nur an der Inferenz interessiert sind (d. h. an Produkten), sondern an der asymptotischen Leistung (d. h. an der Realisierung von AGI).

Offensichtlich ist die Optimierung der Architektur falsch.

Es ist auch definitiv falsch, zu bestimmen, wie man die Q-Funktion-Trajektorie abschneidet.

Das manuelle Erstellen neuer Datensätze führt nicht zur Skalierbarkeit des Modells.

Neue Methoden zur zeitlichen Gaußschen Exploration werden wahrscheinlich auch nicht zur Skalierbarkeit des Modells führen.

Die Mehrheit der Gemeinschaft hat sich darin einig, dass wir neue Methoden zur Nutzung von Daten untersuchen sollten, hauptsächlich in zwei Bereichen: (1) Next-Token-Prediction und (2) RL. Offensichtlich haben wir auf dieser Grundlage keine großen Fortschritte gemacht.

Was KI tut, ist nur die Nutzung von Daten

Diese bahnbrechenden Arbeiten haben neue Wege für die Nutzung von Daten durch KI eröffnet:

  • AlexNet nutzt die Next-Token-Prediction, um den ImageNet-Datensatz zu nutzen.
  • GPT-2 nutzt die Next-Token-Prediction, um die Textdaten im Internet zu nutzen.
  • GPT-4o, Gemini 1.5 und andere native multimodale Modelle nutzen die Next-Token-Prediction, um die Bild- und Audiodaten im Internet zu nutzen.
  • ChatGPT nutzt RL, um die zufälligen menschlichen Präferenzbelohnungsdaten in Chat-Szenarien zu nutzen.
  • Deepseek R1 nutzt RL, um die feststellbaren und überprüfbaren Belohnungsdaten in engen Domänen zu nutzen.

Was die Next-Token-Prediction betrifft, ist das Internet die ideale Lösung: Es bietet eine Fülle von sequenzbezogenen Daten für diese sequenzbasierte Methode.

Abbildung | Das Internet ist voller Sequenzen in strukturierter HTML-Form, die sich perfekt für die Next-Token-Prediction eignen. Je nach Anordnung können Sie verschiedene nützliche Funktionen reproduzieren.

Dies ist kein Zufall: Diese Sequenzdaten eignen sich perfekt für die Next-Token-Prediction; das Internet und die Next-Token-Prediction ergänzen sich gegenseitig.

1. Planetarische Datenmenge

Im Jahr 2020 stellte der OpenAI-Forscher Alec Radford in einem visionären Vortrag fest, dass viele neue Methoden, die damals vorgeschlagen wurden, im Vergleich zur Sammlung von mehr Daten unbedeutend schienen. Insbesondere setzen wir nicht mehr auf “magische” Generalisierung durch bessere Methoden, sondern folgen einem einfachen Prinzip: Wenn das Modell nicht über etwas informiert wird, weiß es natürlich nichts darüber.

Anstatt die zu prognostizierenden Inhalte manuell durch die Erstellung umfangreicher überwachter Datensätze festzulegen …

sollten wir versuchen, von “außen” von allen Dingen zu lernen und Vorhersagen zu treffen.

Jedes Mal, wenn Sie einen Datensatz erstellen, setzen Sie die Wichtigkeit aller anderen Dinge in der Welt auf 0 und die Wichtigkeit aller Dinge im Datensatz auf 1.

Arme Modelle! Sie wissen so wenig, und es ist so vieles für sie verborgen.

Nach der Veröffentlichung von GPT-2 hat die Welt OpenAI bemerkt, und die spätere Entwicklung hat seine Bedeutung bestätigt.

2. Wenn es nur Transformer, aber kein Internet gäbe

Low-Data: Ein offensichtlicher Gegenfakt ist, dass in einer Low-Data-Umgebung (kleine Datenmengen) die Transformatoren wertlos wären: Sie hätten im Vergleich zu Faltungsnetzwerken oder rekurrenten neuronalen Netzwerken einen schlechteren “Architektur-Prior”. Daher sollten die Transformatoren schlechter performen als die entsprechenden Faltungsnetzwerke.

Bücher: Ein weniger extremer Fall wäre, wenn es kein Internet gäbe, würden wir möglicherweise auf der Grundlage von Büchern oder Lehrbüchern vortrainieren. Unter allen menschlichen Daten halten wir normalerweise Lehrbücher für die Spitze der menschlichen Weisheit. Ihre Autoren sind gut ausgebildet und haben viel Gedanken in jedes Wort gesteckt. Im Wesentlichen repräsentieren sie die Meinung, dass “hohe Datenqualität höher gewichtet ist als hohe Datenmenge”.

Lehrbücher: Das phi-Modell von Microsoft (“Textbooks Are All You Need”, Suriya Gunasekar et al., 2023) zeigt eine hervorragende Leistung bei kleinen Modellen, hängt aber dennoch von GPT-4, das im Internet vortrainiert wurde, zur Filterung und Generierung von synthetischen Daten ab. Ähnlich wie in der akademischen Welt ist das phi-Modell in Bezug auf Weltwissen schlechter als andere Modelle gleicher Größe, was durch SimpleQA bestätigt werden kann.

Tatsächlich hat das phi-Modell bereits eine beachtliche Leistung gezeigt, aber wir haben noch nicht gesehen, dass diese Modelle die Leistung von ähnlich großen Modellen erreichen können, die auf Internetdaten trainiert wurden. Und es ist offensichtlich, dass Lehrbücher an realen Weltwissen und mehrsprachigem Wissen fehlen. Dennoch sind sie bei Rechenintensität stark.

3. Dateneinteilung

Ich denke, dass dies auch eine interessante Verbindung zur oben erwähnten RL-Dateneinteilung hat. Lehrbücher sind wie überprüfbare Belohnungen: Ihre Aussagen sind (fast) immer richtig. Im Gegensatz dazu können Bücher — insbesondere kreative Schreibwerke — mehr Daten über menschliche Präferenzen enthalten, wodurch die daraus generierten Studentenmodelle eine größere Vielfalt aufweisen.

So wie wir nicht erwarten würden, dass o3 oder Sonnet 3.7 für uns schreiben, können wir auch annehmen, dass Modelle, die nur auf hochwertigen Daten trainiert wurden, an Kreativität fehlen. In direktem Zusammenhang damit hat das phi-Modell keine gute Product-Market-Fit (PMF): Wenn Sie Wissen benötigen, ziehen Sie eher ein großes Modell vor; und wenn Sie ein Modell für lokale Rollenspielschreibwerke wünschen, wählen die Menschen normalerweise nicht das phi-Modell.

Die Schönheit des Internets

Tatsächlich sind Bücher und Lehrbücher nur eine komprimierte Form von Internetdaten, auch wenn dahinter eine starke Intelligenz die Komprimierung vornimmt. Darüber hinaus ist das Internet selbst eine wichtige Überwachungsquelle mit einer enormen Vielfalt an Modellen und eine Abbildung der Menschheit.

Auf den ersten Blick mag es vielen Forschern seltsam erscheinen, dass wir uns für die Forschung auf Produkte konzentrieren müssen. Aber ich denke, dass dies sehr natürlich ist: Wenn wir uns darum kümmern, dass die AGI tatsächlich nützliche Dinge für die Menschen tun kann, und nicht nur in einer isolierten Umgebung intelligent agiert (wie AlphaZero), dann ist es sinnvoll, über die Form zu nachdenken, die die AGI annehmen könnte — ich denke, dass die synergetische Gestaltung von Forschung (Vortraining) und Produkt (Internet) wunderbar ist.

Quelle: Thinking Machines Lab

1. Dezentralisierung und Vielfalt

Das Internet existiert auf eine dezentrale Weise, und jeder kann darin Wissen hinzufügen: Es gibt keine einzige zentrale Quelle für Fakten. Es gibt auf dem Internet eine Fülle von verschiedenen Ansichten, kulturellen Symbolen und Sprachen mit geringer Ressourcenbasis. Wenn wir LLM auf diesen Inhalten vortrainieren, können wir ein Agentenmodell erhalten, das eine riesige Menge an Wissen verstehen kann.

Dies bedeutet, dass die Administratoren von Internetprodukten eine wichtige Rolle bei der Gestaltung der AGI spielen! Wenn wir die Vielfalt des Internets schwächen, wird die Entropie der Modelle bei RL-Aufgaben erheblich sinken. Wenn wir bestimmte Daten löschen, werden ganze Subkulturen in der AGI nicht repräsentiert.

Alignment. Es gibt ein sehr interessantes Ergebnis: Um ein aligniertes Modell zu erhalten, müssen Sie es sowohl auf alignierten als auch auf nicht-alignierten Daten vortrainieren (“When Bad Data Leads to Good Models”; Kenneth Li et al., 2025), damit das Vortraining die linear trennbaren Richtungen zwischen beiden lernen kann. Wenn Sie die nicht-alignierten Daten vollständig entfernen, kann das Modell die Natur der nicht-alignierten Daten und warum sie als schlechte Daten angesehen werden, nicht wirklich verstehen