StartseiteArtikel

Weng Jiayi, ein Nach-Training-Engineer von OpenAI, hat eine neue Paradigmenhypothese für Agentic AI vorgeschlagen.

36氪的朋友们2026-05-11 08:02
In der Ära des Coding Agents kann Erfahrung möglicherweise wieder in lesbares, änderbares und testbares Software umgewandelt werden.

In den letzten zehn Jahren hat die Stärkung von KI hauptsächlich einen Weg beschritten: Die Einbringung von mehr Daten und Rechenleistung in größere Modelle, um Erfahrungen in den Parametern des neuronalen Netzwerks zu sedimentieren. Dieser Weg hat den Sprung der großen Modelle nach ChatGPT ermöglicht, hat aber auch ein Problem hinterlassen: Die Modelle werden immer stärker, aber warum sie erfolgreich oder fehlschlagen, lässt sich oft noch immer nicht erklären und korrigieren.

Die kürzlich von Weng Jiayi, einem Ingenieur von OpenAI, durchgeführten Experimente eröffnen eine andere Möglichkeit: In einer Umgebung mit klar definierten Zielen, einem ausführbaren Kontext und einer Rückkopplungsschleife kann KI nicht nur durch das Training von Modellen, sondern auch durch "automatisches Ändern von Code" stärker werden.

Am 8. Mai 2026 schrieb Weng Jiayi in seinem persönlichen Blog "Learning Beyond Gradients" diese Experimente systematisch auf und veröffentlichte gleichzeitig das Code-Repository, die CSV-Experimentsprotokolle und die Videowiedergaben. Er hat sich langfristig auf die Verstärkungslearning und die Infrastruktur nach dem Training konzentriert, war an der ursprünglichen Veröffentlichung von ChatGPT beteiligt und hat an Projekten wie GPT - 4, GPT - 4 Turbo, GPT - 4o, o - series und GPT - 5 mitgewirkt. Vor seinem Eintritt bei OpenAI absolvierte er seine Bachelor - Studien an der Fakultät für Informatik der Tsinghua - Universität und seine Master - Studien an der Carnegie Mellon University. Er ist auch der Hauptautor der Open - Source - Verstärkungslearning - Bibliothek Tianshou und des Hochleistungs - parallelen Umgebungsengines EnvPool.

Bild generiert von KI

Er ließ Codex wiederholt Strategiecode schreiben, die Umgebung ausführen, die Protokolle lesen, die Wiedergaben betrachten, die Fehlerquellen lokalisieren, dann den Code ändern, zusätzliche Tests durchführen und die Bewertung fortsetzen. Nach mehreren Iterationen hat Codex eine rein Python - basierte programmierte Strategie entwickelt: In Atari Breakout erreichte es die theoretische Höchstpunktzahl von 864 Punkten. In Simulationumgebungen für die Roboterkontrolle wie MuJoCo Ant und HalfCheetah erzielte es ebenfalls Ergebnisse, die denen gängiger Deep - Reinforcement - Learning - Algorithmen nahe kamen.

Der wirklich wichtige Aspekt dieser Experimente ist eine zentrale Frage: Muss das Lernen, wenn der Coding - Agent stark genug ist, unbedingt in den Gewichten des neuronalen Netzwerks stattfinden?

In diesen Experimenten werden die Erfahrungen in Code, Tests, Protokolle und Wiedergaben geschrieben und zu einem Software - System, das gelesen, geändert, überprüft und auditiert werden kann. Wenn diese Richtung weiterhin Bestand hat, könnte der nächste Schritt der Agentic AI nicht nur das Training größerer Modelle sein, sondern auch die Beteiligung des Modells an der Wartung eines sich ständig entwickelnden Engineering - Systems.

01

Der Engineering - Zyklus von 387 Punkten bis zur Höchstpunktzahl

Weng Jiayi schrieb in seinem Blog, dass der Ausgangspunkt dieser Experimente eigentlich ein Engineering - Bedarf war. In seiner Freizeit wartet er EnvPool und benötigt eine kostengünstigere Methode, um zu testen, ob die Spielumgebung ordnungsgemäß funktioniert, da es zu teuer ist, ein neuronales Netzwerk in die CI - Pipeline einzubinden. Die ursprüngliche Frage war: Ist es möglich, kostengünstige, reproduzierbare und deutlich bessere heuristische Regeln als die Zufallsstrategie zu schreiben, um die Umgebung in einen informationsreichen Zustand zu bringen?

Er versuchte mit Codex (Basismodell: gpt - 5.4), eine vollständig regelbasierte Version zu schreiben. Der anfängliche Prompt war sehr direkt: "Schreibe eine Strategie, die Breakout löst." Das Ergebnis war nicht zufriedenstellend. Die niedrige Punktzahl lieferte keine nützlichen Informationen. Beispielsweise könnten die Aktionssemantik, die Zustandsdetektion, der Bewertungsablauf oder die Strategiestruktur selbst fehlerhaft sein.

Anschließend änderte Weng Jiayi die Aufgabe. Er verlangte nicht mehr, dass Codex direkt eine policy.py - Datei liefert, sondern dass es einen gesamten Zyklus pflegt: Aktionen und Beobachtungen erfassen, Zustandsdetektoren schreiben, Strategien entwickeln, vollständige Episoden ausführen, trials.jsonl und summary.csv aufzeichnen, Videos oder Kurven generieren, Fehlermuster überprüfen, Strategien ändern, Code vereinfachen und Regressionstests durchführen.

Die Experimentsprotokolle von Breakout dokumentieren diesen Prozess sehr deutlich. In der ersten Runde identifizierte Codex zuerst den Aktionsraum und die Beobachtungsform, erkannte die Farben von Ball, Schläger und Ziegeln aus RGB - Frames und scannte dann den 128 - Byte - Atari - RAM mit Bildlabels. Die anfängliche Basislinie betrug nur 99 Punkte. Nach der Hinzufügung der Tunnelverschiebungslogik stieg die Punktzahl auf 387.

387 Punkte sind ein lokales Hoch, das leicht zu Fehleinschätzungen führt. Die Strategie konnte den Ball stabil aufnehmen, aber der Ballpfad war in einer periodischen Schleife gefangen: Man verlierte keine Leben, aber es wurden keine neuen Ziegel getroffen, und die Punktzahl blieb stecken. Wenn ein Mensch den Code schreiben würde, würde er möglicherweise die "Ballauffanggenauigkeit" weiter optimieren. Codex betrachtete das Video und die letzten paarzig Schritte und lokalisierte das Problem auf die fehlende Störung des Ballpfads.

Abbildung: Das Spielbild von Atari Breakout. Der Spieler steuert einen Schläger am unteren Bildschirmrand, um den Ball abzuleiten und die farbigen Ziegelwände oben aufzubrechen. Codex erreichte in diesem Spiel die theoretische Höchstpunktzahl von 864 Punkten.

Anschließend fügte Codex einen Mechanismus zum "Brechen der Schleife" hinzu: Wenn längere Zeit keine Belohnung erhalten wurde, wurde periodisch ein Offset zur Fallpunktsvorhersage hinzugefügt, um den Ball aus der lokalen Schleife zu bringen. Die Punktzahl stieg von 387 auf 507. Bei der weiteren Iteration trat ein neues Problem auf: Bei schnellen niedrigen Bällen führte die normale Interzeption dazu, dass der Schläger "übermäßig voraus" und wegflog. Codex fügte den Parameter fast_low_ball_lead_steps = 3 hinzu, und die Punktzahl stieg von 507 auf 839. Die Steigerung von 839 auf 864 war eher eine Wartung eines bereits komplexen Systems: Es wurden Versuche mit Deadband, Servierverschiebung, Blockierverschiebung, Ziegelausgleichsversatz und Vorausschau - Schritten unternommen. Viele Richtungen zeigten keine Wirkung. Die endgültig effektive Änderung war die späte Bedingung: "Nachdem die erste Ziegelwand abgebaut wurde, wird die Blockierverschiebung nur aktiviert, wenn der Ball weit vom Schläger entfernt ist, und beim Annähern des Balls wird sie schrittweise aufgehoben."

Die endgültige RAM - Standardkonfiguration erreichte in drei Episoden stabil 864 / 864 / 864 Punkte und erreichte somit die theoretische Obergrenze von Breakout. Codex übertragte anschließend die gleiche geometrische Steuerung auf die Version mit reinem Bildinput - ohne RAM - Zugriff, sondern nur mit RGB - Segmentierung zur Erkennung von Schläger, Ball und Ziegelausgleich. Die Bildversion erreichte beim ersten Durchlauf 310 Punkte, beim zweiten 428 Punkte und nach der siebten lokalen Episode 864 Punkte, was 14.504 lokalen Strategieumgebungsschritten entspricht.

Abbildung: Die Stichprobeneffizienzkurve von Codex in Breakout. Die blaue Linie repräsentiert die Version mit direktem Zugriff auf den Spielspeicher (RAM), die rote Linie die Version, die nur das Bildschirmbild betrachtet (Vision). Die RAM - Version hatte mehrere Sprünge von 99 → 387 → 507 → 839 → 864 und erreichte erstmals die Höchstpunktzahl in der 81. Episode und nach insgesamt 1,5 Millionen Umgebungsschritten. Die Vision - Version, die von der RAM - Version mit einer reifen Struktur übernommen wurde, erreichte 864 Punkte bereits nach 7 Episoden und ca. 14.500 Umgebungsschritten.

Weng Jiayi wies besonders darauf hin, dass dies nicht so verstanden werden sollte, als hätte die Bildinput - Version von Null aus nur mit 14.500 Schritten die Höchstpunktzahl erreicht. Der tatsächliche Ablauf war, dass Codex zuerst in der RAM - Version die geometrische Steuerung, das Schleifenbrechen und die späte Versatzfreigabe entdeckte und erst nach Stabilisierung der Struktur die Zustandsleseschicht von RAM auf RGB wechselte. 14.500 ist der Migrationsaufwand für die Bildversion.

02

Die Definition von Heuristic Learning

Es war schwieriger, einen Namen für diese sich ständig entwickelnde "Software - Strategie" zu finden als die erste Version der Strategie zu schreiben. Weng Jiayi benannte diesen Prozess schließlich Heuristic Learning (HL, heuristisches Lernen) und das von ihm gepflegte Objekt Heuristic System (HS, heuristisches System).

Nach seiner Definition im Blog besteht HL aus Programmcode. Wie das heute gängige Deep - Reinforcement - Learning hat es einen Zyklus aus Zustand, Aktion, Rückkopplung und Aktualisierung. Der Unterschied besteht darin, dass das zu aktualisierende Objekt die Softwarestruktur und nicht die Parameter des neuronalen Netzwerks ist. Die Rückkopplung wird vom Coding - Agent verarbeitet und kann aus Umgebungsbelohnungen, Testfällen, Protokollen, Videos, Wiedergaben oder menschlicher Rückkopplung stammen. Die Aktualisierung erfolgt nicht durch Backpropagation, sondern der Coding - Agent bearbeitet direkt die Strategie, den Zustandsdetektor, die Tests, die Konfiguration oder das Gedächtnis.

Es sei angemerkt, dass das "Verwenden von Programmen anstelle von neuronalen Netzwerken als Strategie" nicht von Weng Jiayi erfunden wurde. Die akademische Welt diskutiert seit Jahren über das Programmatic Reinforcement Learning (Programmatisches RL). 2019 wurde vom Rice University und Caltech der PROPEL - Rahmen vorgeschlagen, der die Strategie als kurzes Programm in einer symbolischen Sprache darstellt. 2021 wurde in der LEAPS - Arbeit der Programmeingebungsraum weiter erforscht, um differenzierbare Programstrategien mit RL - Training zu verbinden. 2023 wurde auf der ICML die HPRL vorgeschlagen, die hierarchisches Programmatisches RL implementiert, um mehrere Programme durch eine Meta - Strategie zu kombinieren. 2024 wurde der LLM - GS - Rahmen von der National Taiwan University und Microsoft vorgeschlagen, der die Programmierfähigkeit und die Commonsense - Inferenz von LLMs nutzt, um die Suche nach Programmatischen RL - Strategien zu leiten.

Die Übereinstimmung dieser Studien ist, dass Programmatische Strategien im Vergleich zu neuronalen Strategien eine bessere Interpretierbarkeit, formale Verifizierbarkeit und Generalisierungsfähigkeit für unbekannte Szenarien aufweisen.

Weng Jiayis wesentlicher Beitrag besteht darin, den Coding - Agent als Engineering - Kanal für die Wartung des heuristischen Systems zu betrachten. Früher bei der Implementierung von Programmatischem RL musste man entweder auf handwerklich entworfene domänenspezifische Sprachen oder auf Suchalgorithmen in einem eingeschränkten Programmraster zurückgreifen. Weng Jiayi nutzt Codex, um Code, Protokolle, Tests, Videowiedergaben und Parameteranpassungen in den Arbeitsablauf eines Agents zu integrieren, wodurch die Iterationskosten für Programstrategien auf einmal gesenkt werden. Mit anderen Worten, er argumentiert für einen neuen Engineering - Weg: Wenn der Coding - Agent stark genug ist, könnten die früher als "zu wartungsintensiv" abgelehnten heuristischen Strategien wieder rentabel werden.

Weng Jiayi stellte in seinem Blog eine Vergleichstabelle bereit, die deutlich zeigt, wie HL und Deep RL sich unterscheiden: In Bezug auf die Strategieform besteht das erste aus Code, der aus Regeln, Zustandsautomaten, Steuerungen, Modellprädiktionssteuerung (MPC) und Makroaktionen besteht, während das zweite aus den Parametern des neuronalen Netzwerks besteht. In Bezug auf die Zustandsform sind beim ersten explizite Variablen, Detektoren und Caches vorhanden, während beim zweiten ein vom Netzwerk lesbarer Beobachtungsvektor vorliegt. In Bezug auf die Rückkopplungsform werden beim ersten Tests, Protokolle und Wiedergaben als gültige Signale angesehen, während das zweite hauptsächlich auf eine feste Belohnungsfunktion setzt. In Bezug auf die Gedächtnisform kann das erste explizit Versuche, Zusammenfassungen, Fehlerursachen und Versionsunterschiede speichern, während das zweite in On - Policy - Algorithmen im Wesentlichen kein Gedächtnis hat und in Off - Policy - Algorithmen auf einen Replay - Puffer angewiesen ist.

Dieser Vergleich zeigt, dass HL einige engineeringmäßige Eigenschaften aufweist: Die Strategie ist interpretierbar und kann in natürliche Sprache übersetzt werden. Die Stichprobeneffiz