Chinesischer Forscher als erster Autor: Meta und andere Firmen wiederholen AlphaZero-Legende - KI lässt Menschen hinter sich und wird zum Gott

Künstliche Intelligenz erreicht die Selbstentwicklung von Code durch gegenseitige Auseinandersetzungen und benötigt keine menschlichen Daten.

Als das Modell lernt, sich selbst zu übertreffen, endet die Zeit des mittelmäßigen Nachahmens, und das wahre Wunder des siliconbasierten Programmierens beginnt erst jetzt.

Ist der AlphaZero-Moment für die Programmierwelt endlich da?

Damals hat AlphaZero die menschlichen Schachpartien verworfen und allein durch Selbstspiel die Schachkunst, die über tausend Jahre entwickelt wurde, ergründet.

Heute liegt der Achillesferse der KI-Programmierer gerade darin, dass sie zu sehr wie "Menschen" sind -

KI, die durch das Lernen von menschlichem Code heranwächst, wird nie in der Lage sein, die Mittelmäßigkeit der Menschen zu überwinden.

Gerade kürzlich versucht ein Forschungsunternehmen aus Meta, UIUC und CMU mit dem neuesten Ergebnis Self-play SWE-RL (SSR) den Mythos von AlphaZero zu wiederholen -

Verwerfe die menschlichen Lehrer und weigere dich, zu imitieren.

Link zur Studie: https://arxiv.org/pdf/2512.18552

Gebe der KI einfach eine Codebasis und lasse sie die Rollen des "Zerstörers" und des "Reparateurs" übernehmen und in einem Kampf gegeneinander antreten.

In diesem Selbstspiel, in dem keine menschliche Intervention erforderlich ist, entsteht ein echtes, über menschliche Erfahrungen hinausgehendes Programmierwunder.

Die "gefütterte" KI und die Obergrenze der menschlichen Daten

Von Devin bis OpenDevin und bis zu den internen Code-Assistenten der großen Unternehmen können sie tatsächlich Programmierern bei vielen lästigen Aufgaben helfen.

Aber hier gibt es eine unsichtbare Grenze.

Die derzeit gängigen Trainingsmethoden, sei es SWE-RL oder DeepSWE, lehren im Wesentlichen der KI, zu "imitieren".

Dieses auf menschlichem Wissen basierende Modell hat drei Todsünden:

Zu wenige Daten: Hohe Qualität, mit Testfällen und detaillierten Beschreibungen versehene Bug-Fix-Daten sind tatsächlich sehr rar.
Unzuverlässige Qualität: Die von Menschen geschriebenen Issues sind oft unklar, und die Testfälle sind möglicherweise nicht perfekt, was dazu führt, dass das Trainingssignal voller Rauschen ist.
Zu niedrige Obergrenze: Wenn die KI nur Menschen imitiert, wird sie höchstens ein mittelmäßiger Anfängerprogrammierer.

Deshalb wird es in der Studie als ein grundlegendes Hindernis auf dem Weg zur Superintelligenz bezeichnet:

Wenn das Trainingssignal immer von Menschen bereitgestellt werden muss, ist es schwer vorstellbar, dass es sich unbegrenzt auf die Ebene der "offenen, selbstentwickelnden" Intelligenz ausdehnen kann.

Der Kern des Spiels, der "Kampfklub" im Codesandkasten

Die Kernidee von SSR ist sehr einfach, aber dennoch äußerst raffiniert: Selbstspiel (Self-Play).

In diesem System wird einem einzigen LLM zwei völlig verschiedene, sich gegenseitig bekämpfende Rollen zugewiesen.

Rolle 1: Der Zerstörer (Bug-Injektions-Agent)

Seine Aufgabe ist es nicht, Code zu schreiben, sondern zu zerstören.

Gebe ihm ein normales Open-Source-Projekt (z. B. eine Python-Bibliothek), und er muss sich darin einschleichen, die Code-Logik studieren und dann einen Bug erstellen.

Aber der Zerstörer darf nicht willkürlich vorgehen (z. B. alle Dateien löschen). Er muss ein komplettes "Werkzeugset" (Artifacts) erstellen:

bug_inject.diff: Dies ist das eigentliche Zerstörungspatch, das den Code beschädigt.

test_script.sh: Ein Skript, das die Tests ausführen kann, um zu beweisen, dass der Bug tatsächlich existiert.

test_files.txt: Gibt an, welche Testdateien zur Überprüfung dieses Bugs verwendet werden.

test_parser.py: Ein Parser, der die Testergebnisse in ein maschinenlesbares JSON-Format übersetzt.

test_weaken.diff: Es ändert oder löscht die vorhandenen Testfälle, damit der Bug im aktuellen Testsuite nicht gemeldet wird.

In SSR ist die Fehlererzeugung eine Aufgabe, die von einem Zerstörer-Agenten ausgeführt wird. Dieser Agent nutzt Werkzeuge, um mit der Ausführungsumgebung zu interagieren, um Fehlerartefakte zu erzeugen und nach der Überprüfung ihrer Konsistenz dem Reparatur-Agenten zur Verfügung zu stellen.

Das Schlüsselmerkmal eines guten Zerstörer-Agenten besteht darin, dass er vielfältige Fehler erzeugen kann, um die Komplexität der realen Softwareentwicklung zu erfassen und so den Reparatur-Agenten in einer breiten Palette von Software-Debugging- und -Engineering-Szenarien zu trainieren.

Rolle 2: Der Reparateur (Bug-Behebungs-Agent)

Wenn der Zerstörer seine Arbeit abgeschlossen hat, ist es an der Zeit, dass der Reparateur auftritt.

Der Reparateur steht vor einer Codebasis, in die ein Bug eingefügt wurde und deren Tests "geschwächt" wurden.

Die Aufgabe, die der Reparateur bekommt, ist sehr herausfordernd. Er sieht nicht, wie der ursprüngliche Bug eingefügt wurde. Er muss wie ein Detektiv vorgehen, indem er den Code liest, die Tests ausführt, die Fehler analysiert und schließlich ein Reparaturpatch (Fix Patch) schreibt.

Durch die Konfrontation der beiden Modellrollen des Zerstörers und des Reparateurs kann das Modell eine geschlossene Kreislaufentwicklung erreichen.

Lasst Magie mit Magie bekämpfen, wie stellen wir sicher, dass die KI nicht "erfindet"?

Wenn du die KI einfach dazu bringst, Bugs zu generieren, wird sie höchstwahrscheinlich Halluzinationen haben. Deshalb hat SSR einen strengen Konsistenzüberprüfungsprozess (Consistency Verification) wie eine Sicherheitskontrolle entwickelt.

Ein qualifiziertes Bug-Artifact muss alle folgenden Prüfungen bestehen:

Existenzprüfung: Die referenzierten Testdateien müssen im ursprünglichen Repository vorhanden sein;
Parserprüfung: Der Python-Parser muss die Testausgabe verstehen können;
Skriptgültigkeit: Das Testskript muss vor der Beschädigung des Codes funktionieren;
Bug-Bereichskontrolle: Die Anzahl der geänderten Dateien muss angemessen sein und der festgelegten Schwierigkeit entsprechen.
Bug-Gültigkeit (Schlüssel): Nach der Injektion des Bugs muss der ursprünglich bestandene Test fehlschlagen. Wenn der Test nach der Bug-Injektion immer noch besteht, bedeutet dies, dass der Bug überhaupt nicht wirksam war.
Verdeckungsgültigkeit: Nach der Anwendung des "Verdeckungspatches" muss der ursprünglich fehlgeschlagene Test bestehen, um zu beweisen, dass der Testsuite erfolgreich getäuscht wurde.

Der beste Trick, die inverse Mutationsprüfung

Die inverse Mutationsprüfung (Inverse Mutation Testing) ist ein neues Konzept, das zur Überprüfung der Bug-Qualität erfunden wurde.

Die herkömmliche Mutationsprüfung verändert den Code und prüft, ob der Test den Fehler finden kann.

Die inverse Mutationsprüfung geht genau umgekehrt vor und stellt die vom Bug betroffenen Dateien nacheinander wieder in den ursprünglichen Zustand zurück.

Wenn der fehlgeschlagene Test nach der Wiederherstellung einer Datei besteht, bedeutet dies, dass diese Datei tatsächlich die Ursache des Bugs ist.
Wenn der Test auch nach der Wiederherstellung der Datei immer noch Probleme hat, bedeutet dies, dass diese Datei nichts mit dem Bug zu tun hat.

Dieser Schritt stellt sicher, dass jede von der KI vorgenommene Änderung notwendig ist.

Wie erstellt man einen "perfekten" Bug?

Wenn der "Zerstörer" einfach x = 1 in x = 0 ändert, lernt der "Reparateur" nichts.

Um die KI noch klüger zu machen, hat das Forschungsunternehmen einige kreative Bug-Injektionsstrategien erforscht.

Strategie A: Direkte Injektion (Direct Injection)

Sage der KI: "Gehe hin und erstelle einen Bug", dies ist die dämmlichste Methode.

Wie erwartet ändert die KI oft einfach eine Zahl oder ein Symbol im Code.

Dieser Bug ist zu oberflächlich, der Reparateur kann ihn auf den ersten Blick erkennen, und die Trainingswirkung ist am schlechtesten.

Strategie B: Brutale Löschung (Removal-only)

Sage der KI: "Lösche den Code dieser Kernfunktion!"

Dies zwingt den Reparateur, diese Funktion basierend auf dem Kontext und dem verbleibenden Testcode neu zu implementieren.

So kann die Fähigkeit der KI zur Code-Rekonstruktion und -Verständnis stark trainiert werden.

Strategie C: Historischer Rollback (History Rollback)

Sage der KI: "Schau in die früheren Commit-Logs und setze den Code auf eine ältere Version zurück."

Da die Geschichte der Codebasis oft mit realen Bugs und der Entwicklung von Funktionen voll ist.

Wenn die KI mit dem früheren Zustand des Codes konfrontiert wird, ist dies gleichbedeutend damit, dass sie den Prozess der Projektentwicklung noch einmal erlebt. Der so erzeugte Bug ist am natürlichsten und hat die größte Praxisrelevanz.

Experimente haben gezeigt, dass die kombinierte Verwendung der "Löschstrategie" und des "historischen Rollbacks" die beste Wirkung hat. Dies gewährleistet sowohl die Schwierigkeit als auch die Realität.

Der ultimative Trick: Höhere Bug-Level

Wenn der Reparateur versucht, einen Bug zu beheben, aber fehlschlägt, hält SSR dies ebenfalls für "recyclbar".

Der fehlgeschlagene Code des Reparateurs ist oft ein Halbfabrikat - er hat möglicherweise einen Teil behoben, aber neue Probleme eingeführt. Ist dies nicht ein komplexerer, versteckterer Bug?

Das System wird diesen "fehlgeschlagenen Fix" als neuen Bug-Zustand erneut an den Reparateur übergeben.

Dieser mehrstufige, hierarchische Fehlerzustand erweitert die Dimension der Trainingsdaten erheblich.

Der grausame Belohnungsmechanismus und

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ein chinesischer Forscher ist der erste Autor. Firmen wie Meta wiederholen die Legende von AlphaZero. Künstliche Intelligenz lässt den Menschen hinter sich und wird selbst zum Gott.