Dwarkesh Patel: Die nächste Generation von KI – Entstehung durch praktische Einsatzanwendungen

Nicht nur einmal trainieren, sondern lernen während der Nutzung.

Der bekannte Technologie-Podcast-Moderator aus der Silicon Valley, Dwarkesh Patel, hat kürzlich eine Frage gestellt: Was wird das nächste Trainingsparadigma für KI sein?

Dwarkesh Patel ist ein in den letzten Jahren in der Silicon Valley rasch berühmter Technologie-Podcast-Moderator und Schriftsteller. Er ist erst 25 Jahre alt, hat es aber bereits geschafft, mit seinem Dwarkesh Podcast in die Kernschicht der KI-Diskussion einzudringen. Seine Interviewpartner umfassen Ilya Sutskever, Andrej Karpathy, Dario Amodei, Demis Hassabis, Mark Zuckerberg und andere KI- und Technologie-Experten. Die Zeitschrift TIME hat ihn 2024 in die TIME100 AI aufgenommen und gesagt, dass sein Podcast für viele KI-Betriebe ein wichtiges Hörmaterial geworden ist.

In der neuesten Ausgabe seines Podcasts hat er die von den aktuellen Spitzen-KI-Labors bevorzugten Ansätze in einem Schlagwort zusammengefasst: RLVR, also Reinforcement Learning with Verifiable Rewards, das heißt Verstärkendes Lernen mit verifizierbaren Belohnungen.

Einfach ausgedrückt, bedeutet dies, dass das Modell in einer Vielzahl von Aufgaben, bei denen die Richtigkeit automatisch festgestellt werden kann, wiederholt Fehlversuche macht, um Planungs-, Fehlerkorrektur-, Iterations- und Langzeitausführungskompetenzen zu entwickeln. Die raschen Fortschritte in Bereichen wie Code und Mathematik stammen in hohem Maße aus diesem Ansatz.

Aber was Dwarkesh wirklich wissen möchte, ist: Reicht es, wenn die nächste Generation von KI nur auf diesem "Training mit verifizierbaren Aufgaben" basiert?

Seine Antwort ist: Wahrscheinlich nicht.

Denn es reicht nicht, dass eine Aufgabe "verifizierbar" ist. Sie muss auch "wiederholbar" sein.

Der Schlüsselbegriff hier ist grindability, die Wiederholbarkeit. Im Kontext des KI-Trainings bedeutet dies "die Fähigkeit, Aufgaben wiederholt zu lösen" oder "die Fähigkeit, in großem Maßstab umzusetzen".

Code-Aufgaben sind typische wiederholbare Aufgaben. Man kann ein Software-Repository, einen zu behebenden Fehler und einen Testfall vorbereiten und dann die gleiche Umgebung tausendmal kopieren, damit tausend Agenten gleichzeitig versuchen können. Wer den Test besteht, bekommt Punkte. Dieser Prozess kann parallelisiert, reproduziert und zurückgesetzt werden und eignet sich besonders gut für RLVR.

Mathematikaufgaben sind ähnlich. Man kann überprüfen, ob die Antwort richtig ist, und die Trainingsumgebung ist leicht zu kopieren.

Aber Dwarkesh hat eine sehr interessante Frage gestellt: Warum macht die KI bei der "Benutzung von Computern" weniger Fortschritte als bei Code und Mathematik?

Scheinbar ist auch die Computerbenutzung verifizierbar. Beispielsweise kann man feststellen, ob ein Kauf erfolgreich war, ob ein Veranstaltungsort reserviert wurde oder ob eine Steuererklärung eingereicht wurde. Das Problem ist jedoch, dass es schwer ist, dies in großem Maßstab zu kopieren und wiederholen. Man kann nicht tausend Agenten gleichzeitig auf Amazon den gleichen Checkout-Prozess durchlaufen lassen, weil die echte Website Bots erkennt, Konten sperrt und den Zustand ändert. Natürlich kann man Anwendungen wie Slack, Gmail und Amazon klonen, um einen Simulator zu erstellen, aber dies ist derzeit noch ein aufwändiges und wenig skalierbares Projekt.

Dwarkesh weist darauf hin: Die KI macht in einem Bereich schnelle Fortschritte, nicht nur weil die Antworten in diesem Bereich verifizierbar sind, sondern weil dieser Bereich als wiederholbare, wiederholbare und parallelisierbare Trainingsumgebung gestaltet werden kann.

Dies erklärt auch, warum Code-, Mathematik- und Spieleaufgaben eine natürliche Nische für RLVR darstellen, während viele Aufgaben aus der realen Welt schwer direkt in dieses Trainingsparadigma integriert werden können.

Anschließend hat er die Frage auf die komplexere reale Welt erweitert.

Was tun, wenn wir eine KI trainieren möchten, um von Grund auf ein Unternehmen zu gründen?
Was tun, wenn wir sie trainieren möchten, um einen Prozess zu gewinnen?
Was tun, wenn wir sie trainieren möchten, um stabil im Markt zu verdienen oder einen Kandidaten bei einer Wahl zu unterstützen?

Diese Aufgaben haben natürlich auch Ergebnisse. Man kann feststellen, ob ein Unternehmen erfolgreich ist, ob ein Prozess gewonnen wurde, ob ein Handel profitabel war oder ob eine Wahl gewonnen wurde.

Aber das Problem ist, dass die Rückmeldung zu langsam ist, die Variablen zu zahlreich sind, die Welt nicht zurückgesetzt werden kann und man sie nicht tausendmal in einem Rechenzentrum kopieren kann.

Ein Unternehmensgründungsprozess kann mehrere Jahre dauern. Eine politische Wahl hängt von der Region, dem Kandidaten, der Stimmung der Wähler, der Medienumgebung und zufälligen Ereignissen ab. Ein Rechtsfall kann auch nicht von demselben Ausgangspunkt aus in tausend parallele Universen kopiert werden, damit verschiedene Agenten jeweils Fehlversuche machen können.

Dieser Typ von Umgebung ist in der Verstärkungslerntechnik einer sogenannten reset-free, non-stationary environment ähnlich: Sie kann nicht einfach zurückgesetzt werden, und die Umgebung selbst ändert sich ständig.

Dwarkesh fragt daher: Kann ein Agent, der in einer verifizierbaren und wiederholbaren Umgebung mit RLVR trainiert wurde, wirklich auf diese Aufgaben aus der realen Welt übertragen werden?

Dies ist keine Frage, die man mit einem Schlagwort beantworten kann, sondern eine empirische Frage.

Optimisten würden sagen, dass, wenn die RLVR-Umgebung nur komplex und zahlreich genug ist, das Modell schließlich allgemeine Agentenfähigkeiten erlernen wird. Die Planungs- und Fehlersuchfähigkeiten, die es in Code, Mathematik, Webseiten und Werkzeugbenutzung erlernt hat, werden schließlich auf Unternehmensgründung, Organisationsmanagement, Politik, Recht und wissenschaftliche Forschung übertragen werden.

Aber Dwarkesh ist skeptisch.

Weil das wertvollste Wissen in der realen Welt oft nicht in klarer, verifizierbarer und wiederholbarer Form vorliegt. Es kann aus einer unklaren Kundenrückmeldung, einem fehlgeschlagenen Meeting, einem impliziten Prozess innerhalb einer Organisation oder einem Fehlermuster stammen, das nur in einer realen Aufgabe auftritt. Um diese Dinge zu lernen, muss das Modell nicht nur "Aufgaben lösen", sondern auch eine echte Stichprobeneffizienz haben.

Dies bringt die Diskussion auf den wichtigsten Punkt des gesamten Artikels: learning back to the weights, das heißt, das Lernen in die Gewichte zurückschreiben.

Heutige große Modelle sind bereits gut darin, in-context learning zu betreiben. Sie können in einem langen Kontext viele Informationen lesen, den Hintergrund eines Projekts verstehen und sich vorübergehend an die Bedürfnisse eines Benutzers oder einer Organisation anpassen. Das Problem ist jedoch, dass dieses Lernen meistens nur innerhalb des Kontextfensters bleibt. Nach dem Ende der Konversation hat das Modell möglicherweise nicht wirklich "Gedächtnis".

Dwarkesh hält dies für eine enorme Verschwendung.

Weil die wirklich wertvollen Trainingssignale für das Modell erst nach der Implementierung auftreten. Das Modell wird von echten Benutzern verwendet, tritt in realen Organisationen ein, nimmt an realen Aufgaben teil und macht echte Fehler. Es sieht, wie eine Firma intern funktioniert, was die Menschen tatsächlich damit tun, wo es oft fehlschlägt und welche Vorschläge in der Realität überhaupt nicht funktionieren.

Aber wenn diese Erfahrungen nicht in die Modellgewichte zurückgespeichert werden können, ist es nur eine vorübergehende Anpassung in einer Konversation, nicht eine langfristige Steigerung der Fähigkeiten.

Er hat einen Vergleich mit dem menschlichen Lernen angestellt: Menschen werden nicht dadurch stärker, dass sie jeden Tag alles, was passiert, wörtlich auswendig lernen. Ein Mitarbeiter wird nach einem halben Jahr Arbeit nützlich, nicht weil er jede E-Mail und jede Meeting-Protokollzeile erinnert, sondern weil er diese Erfahrungen in Urteilsvermögen, Intuition, Prozessverständnis und Problemuster zusammengefasst hat.

Das Modell sollte auch so funktionieren.

Echt kontinuierliches Lernen bedeutet nicht, den KV-Cache unendlich zu erweitern oder alle historischen Aufzeichnungen in den Kontext zu packen, sondern aus realen Erfahrungen eine kleine Menge wirklich nützlichen Wissens zu extrahieren und es dann in die Gewichte zu komprimieren.

Dies ist das Problem, das Dwarkesh glaubt, dass das nächste Trainingsparadigma lösen muss.

Wie geht man also konkret vor?

Er hat eine Richtung erwähnt, die derzeit diskutiert wird: on-policy self-distillation, kurz OPSD.

Man kann es grob so verstehen: Ein Modell, das in einer langen Konversation eine Vielzahl von Erfahrungen gesammelt hat, fungiert als "alter Mitarbeiter" oder Lehrer. Dann wird das Basis-Modell trainiert, damit es auch ohne diesen vollständigen Kontext ähnliche Urteile wie der Lehrer fällen kann.

D.h., das, was das Modell in einer realen Aufgabe durch den Kontext gelernt hat, wird zurück in die Gewichte des Modells selbst destilliert.

Dies unterscheidet sich von der gewöhnlichen SFT. Die einfachste SFT könnte einfach darin bestehen, dass das Modell versucht, die in der Konversation auftretenden Token vorherzusagen, was gleichbedeutend ist mit dem Wiederholen des gesamten Arbeitsjournals. Aber dies ist kein effektives Lernen. Das Wichtigste ist nicht, alle Details zu merken, sondern die Schlüssel-Einsichten zu extrahieren, die dem Modell helfen, beim nächsten Mal besser zu performen.

Der Vorteil von OPSD besteht darin, dass es nicht unbedingt eine externe verifizierbare Belohnung benötigt. Solange das Modell im Kontext nützliche Dinge lernt, kann man das "nach dem Lernen" Modell als Lehrer nehmen und das Basis-Modell ihm anpassen lassen.

Zusätzlich kann OPSD im Vergleich zur gewöhnlichen RL, die nur eine endgültige Belohnung hat, dichtere Überwachungssignale liefern. Es kann die Wahrscheinlichkeitsverteilung zwischen Lehrer und Schüler auf Token-Ebene vergleichen und so die seltenen Erfahrungen aus einer realen Aufgabe in kleinere und präzisere Gewichtsaktualisierungen komprimieren.

Außer OPSD hat Dwarkesh noch eine andere Richtung vorgeschlagen: dreaming.

Hierbei handelt es sich darum, dass die KI basierend auf Beobachtungen aus der realen Welt eine simulierte Umgebung erstellt und darin wiederholt übt, Strategien testet und effektives Verhalten verstärkt.

Dies klingt sehr ähnlich wie das traditionelle model-based RL in der Verstärkungslerntechnik und auch wie das von Sutton immer betonte Prinzip, dass der Agent Erfahrungen durch die Interaktion mit der Umgebung sammelt. Der Unterschied ist, dass Dwarkesh es in den Kontext von großen Modellen und realer Implementierung gestellt hat.

Beispielsweise erstellt eine KI, nachdem sie in einer realen Firma einen Geschäftsprozess beobachtet hat, nicht nur eine Zusammenfassung, sondern investiert viel Rechenleistung, um eine "Spielversion" dieser Umgebung zu konstruieren. Dann testet sie verschiedene Kommunikationsstrategien, Ausführungswege und Projektvoranschrittsmethoden, um herauszufinden, was am wahrscheinlichsten erfolgreich ist. Schließlich komprimiert sie die aus diesen Simulationsübungen gewonnenen Erfahrungen wieder in das Modell.

Wenn dieser Ansatz funktioniert, könnte er eine neue Skalierungsachse werden.

In der Vergangenheit hat die Skalierung von KI hauptsächlich auf drei Achsen beruht: Pretraining, RL und Inference-Time-Computing. Dwarkesh stellt sich vor, dass es in Zukunft möglicherweise eine vierte Achse geben wird: Test-Time-Training, oder auch dreaming. Das Modell führt nicht nur Inference aus, sondern konstruiert während der Inference und der Aufgabenausführung für bestimmte Benutzer, Organisationen und Projekte eine simulierte Umgebung und trainiert sich darin.

Darum hat jemand im Kommentarbereich auf den Artikel "Welcome to the Era of Experience" von David Silver und Richard Sutton verwiesen: In diesem Artikel wird ebenfalls betont, dass die KI nicht immer auf menschliche Daten angewiesen sein kann und dass der Schlüssel für die nächste Phase darin bestehen wird, dass der Agent Erfahrungen aus seiner eigenen Interaktion mit der Umgebung gewinnt.

Dwarkesh hat diese makroskopische Einschätzung auf das heutige Problem des Trainings von großen Modellen konkretisiert: RLVR ist eine wichtige Übergangsphase, in der das Modell in verifizierbaren Aufgaben Agentenfähigkeiten erlernt. Um in die komplexere reale Welt vorzudringen, muss das Modell jedoch lernen, kontinuierlich aus der realen Implementierung zu lernen und die Erfahrungen in die Gewichte zurückzuschreiben.

In Dwarkesh' Vorstellung für das Jahr 2027 oder 2028 könnte der Trainingsablauf so aussehen:

Zunächst trainiert RLVR einen grundlegend kompetenten Agenten. Dieser Agent wird in ein unbekanntes Problem geworfen und kann zumindest die Situation verstehen, verschiedene Strategien ausprobieren und nach Hindernissen weiter iterieren.
Dann wird dieser Agent in die reale Welt eingesetzt und beginnt, reale Arbeit zu verrichten. Er kann möglicherweise eine Woche lang kontinuierlich mit einem Benutzer zusammenarbeiten und an einem Projekt teilnehmen, das nicht in der ursprünglichen Trainingsverteilung liegt.
Am Ende der Woche gibt der Benutzer ihm ein Daumen hoch oder runter, oder schreibt sogar eine Arbeitsbewertung. Wenn das Ergebnis positiv ist, wird das Modell die aus dieser Aufgabe gelernten Dinge in das Basis-Modell destillieren. Dieser Prozess kann mit OPSD, mit dreaming oder mit einer noch nicht existierenden neuen Technologie erfolgen.

Sobald dieser Weg funktioniert, werden die Fähigkeitsgrenzen der KI nicht mehr durch die anfänglichen "verifizierbaren Aufgaben" eingeschränkt.

Es kann zunächst durch RLVR Code, Mathematik, Webseitenaufgaben und Werkzeugaufrufe lernen. Dann kann es durch reale Implementierung Organisationsmanagement, Geschäftsprozesse und komplexe Zusammenarbeit lernen. Und schließlich kann es von diesen Erfahrungen ausgehend in benachbarte Bereiche expandieren.

Dies bedeutet auch, dass die Hauptquelle des Fortschritts der KI sich möglicherweise ändern wird.

In der Vergangenheit wurde ein Modell vor der Veröffentlichung trainiert, und die Benutzer haben es nur benutzt. Das nächste Generation-Modell könnte so sein: Vor der Veröffentlichung wird zunächst ein Basis-Agent trainiert, und nach der Veröffentlichung lernt es durch eine Vielzahl von realen Aufgaben weiter. Jede Interaktion mit dem Benutzer, jede Ausführung eines realen Projekts, jedes Versagen und jede Korrektur können möglicherweise das

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Dwarkesh Patel: Die nächste Generation von KI könnte durch praktische Einsatzanwendungen entstehen.