Chinesische Praktikanten von Meta haben einen Super-Intelligenten Agenten entwickelt, der selbst Code schreibt und sich selbst weiterentwickelt.
Der „Superintelligent Agent“ mit unbegrenztem Fortschritt ist da!
Kürzlich hat eine Studie der Meta-Forschungsgruppe mit dem Titel HYPERAGENTS (Superintelligent Agent) schnell die sozialen Medien erobert.
Diese Studie kombiniert die Idee des Gödel-Maschine, die vor zwanzig Jahren vom Vater des LSTM, Jürgen Schmidhuber, vorgeschlagen wurde, mit dem Darwin'schen offenen Algorithmus und stellt die Darwin-Gödel-Maschine vor, die in der Lage ist, sich kontinuierlich selbst zu verbessern.
Basierend auf dieser Idee kann ein Agent nicht nur spezifische Aufgaben besser erledigen, sondern auch seine Leistung kontinuierlich verbessern.
Was noch wichtiger ist, kann er die grundlegende Logik zur Verbesserung seiner eigenen Fähigkeiten ständig optimieren und so „Meta-Learning“ erreichen.
Das ist der von der Studie definierte neue Generation von Superintelligent Agenten – Hyperagents.
Die Studie geht noch einen Schritt weiter und stellt fest, dass künftig KI in der Lage sein könnte, sich kontinuierlich selbst zu verbessern und schließlich die vom Menschen festgelegten Grenzen des initialen Algorithmus zu überschreiten. Aus diesem Grund muss die Sicherheit von KI in den Mittelpunkt gestellt werden.
Viele Internetnutzer haben sich auch gefügt und gesagt:
Was das Meta-Learning wirklich beängstigend und aufregend macht, ist, dass Verbesserungen auf der Meta-Ebene zwischen verschiedenen Bereichen übertragen werden können. Es geht nicht darum, in einer bestimmten Sache besser zu werden, sondern darum, zu lernen, in allen Dingen besser zu werden.
Derzeit wurde diese Studie von der ICLR 2026 akzeptiert.
Von der Gödel-Maschine zur Darwin-Gödel-Maschine
Um den Superintelligent Agenten Hyperagents zu verstehen, muss man zuerst seine Grundlage kennen –
die Gödel-Maschine.
Die Gödel-Maschine ist eine hypothetische selbstverbessernde KI. Sie sucht in der Mathematik nach Beweisen:
Wenn es eine bessere Strategie gibt, wird sie das Problem lösen, indem sie ihren eigenen Code rekursiv neu schreibt.
Diese Hypothese wurde erstmals vor über zwanzig Jahren von Jürgen Schmidhuber vorgeschlagen.
In der traditionellen maschinellen Lernweise ist die „Lernmethode“ der KI eine vom Menschen festgelegte Hard-Codierung, und sie kann nur das Ziel annähern, indem sie ihre internen Parameter anpasst.
Die Gödel-Maschine bricht diese Beschränkung jedoch, indem sie das Algorithmus-Framework selbst als bearbeitbaren Code ansieht und durch die eigenständige Neuschreibung des Programms die Selbstentwicklung ihrer Lernfähigkeit erreicht.
Aber damit kommen auch Probleme: Die Gödel-Maschine erfordert normalerweise, dass die KI vor der Selbstentwicklung beweist, dass die Änderung einen Nettogewinn bringt.
Das heißt, kann die Rechenleistungskosten, die für die Codeänderung aufgewendet werden, in Zukunft durch eine stärkere Leistung wieder eingespart werden?
Leider ist diese Berechnung in realen komplexen Aufgaben fast unmöglich.
Um dieses Problem zu lösen, hat das Meta-Team die Darwin-Gödel-Maschine (DGM) vorgeschlagen, die offene Algorithmen nutzt, um in den vom großen Modell vorgeschlagenen Codeverbesserungslösungen zu suchen und Lösungen zu finden, die die Leistung empirisch verbessern können.
Mit anderen Worten, die DGM nutzt das Basis-Modell, um Codeverbesserungslösungen vorzuschlagen, und nutzt die neuesten Innovationen offener Algorithmen, um eine ständig wachsende, vielfältige und hochwertige Bibliothek von KI-Intelligent Agenten zu suchen und aufzubauen.
Basierend auf diesem Ansatz kann die DGM verschiedene Selbstverbesserungslösungen schaffen, wie z. B. den Schritt der Patch-Validierung hinzuzufügen, die Dateiansicht zu optimieren, die Bearbeitungstools zu verbessern, mehrere Lösungen zu generieren und auszuwählen, um die beste Lösung zu finden, und beim Vornehmen neuer Änderungen automatisch die Historie der Versuche hinzuzufügen (und die Ursachen des Scheiterns zu analysieren) für die Referenz.
Die Experimente in der Studie zeigen auch, dass je mehr Rechenleistung die DGM erhält, desto besser ist das Ergebnis der Selbstverbesserung.
Der Superintelligent Agent
Obwohl die DGM sehr stark ist, hat sie eine fatale Einschränkung: sie ist hauptsächlich in Programmieraufgaben effektiv.
Dies liegt daran, dass die DGM von einer Schlüsselannahme abhängt – die Bewertungsaufgabe und die Selbstmodifikationsaufgabe müssen „ausgerichtet“ sein.
Im Programmierbereich ist diese Ausrichtung natürlich: Wenn man die Programmierfähigkeit verbessert, verbessert man auch die Fähigkeit, seinen eigenen Code zu ändern.
Das heißt, die logischen Werkzeuge zur Lösung externer Programmierprobleme können direkt in die Fähigkeit zur Änderung des eigenen Basis-Codes umgewandelt werden.
Im Gegensatz dazu, wenn es sich um einen nicht-programmierenden Bereich handelt (z. B. Gedichtschreiben), kann die Verbesserung der Gedichtschreibfähigkeit nicht direkt in die logische Fähigkeit zur Codeänderung umgewandelt werden.
In solchen Aufgaben, die an „Selbstreferenz“ fehlen, bricht die rekursive Evolutionskette der DGM und bleibt stehen.
Basierend auf diesem Problem schlägt die Studie den Superintelligent Agenten vor –
sie können sowohl ihr Aufgabenausführungsverhalten ändern als auch den Prozess der Generierung zukünftiger Verbesserungsvorschläge ändern.
Dies ermöglicht die sogenannte metakognitive Selbstmodifikation: Man lernt nicht nur, wie man besser wird, sondern auch, wie man effektiver verbessert.
Weiterhin instanziiert die Studie den Superintelligent Agenten als DGM-Hyperagents (DGM-H).
DGM-H ist eine Erweiterung der DGM, bei der sowohl das Aufgabenlösungsverhalten als auch das Selbstverbesserungsprogramm bearbeitbar und evolvierbar sind. Das Framework ist wie folgt:
Selbstreferentielles Framework: Es integriert den „Aufgaben-Agenten“ und den „Meta-Agenten“ in ein einzelnes, bearbeitbares Programm.
Meta-Ebene-Evolution: In den Hyperagents kann auch die „Verbesserungsmethode“ selbst verbessert werden. Dies ermöglicht es dem System, keine Ausrichtung zwischen Aufgabe und Modifikation zu verlangen und so die „metakognitive Selbstmodifikation“ über verschiedene Bereiche hinweg zu erreichen.
Zum Beispiel lernt in den Hyperagents nicht nur der Athlet, sondern auch der Trainer, wie er besser trainieren kann. Dadurch steigen die Leistung des Athleten und die Coaching-Fähigkeit des Trainers kontinuierlich an.
Darüber hinaus verbessert DGM-H auch den Prozess der Generierung neuer Intelligent Agenten (z. B. durch die Einführung von dauerhaftem Gedächtnis, Leistungstracking usw.), und diese Meta-Ebene-Verbesserungen haben die Eigenschaften der Übertragung zwischen verschiedenen Bereichen und der Akkumulation über verschiedene Ausführungen hinweg.
Experimentelle Validierung: Der Sprung von 20 % auf 50 %
Experimente haben gezeigt, dass die Darwin-Gödel-Maschine in der Lage ist, sich kontinuierlich zu verbessern, indem sie ihre eigene Codebibliothek ändert.
Im SWE-Bench hat die DGM ihre Leistung automatisch von 20,0 % auf 50,0 % verbessert.
Im Polyglot-Bench hat die DGM ihre Leistung von anfänglich 14,2 % auf 30,7 % gesteigert, weit über die eines repräsentativen künstlich entworfenen Intelligent Agenten, der von Aider entwickelt wurde.
Diese Ergebnisse beweisen, dass die DGM in der Lage ist, effektive Selbstverbesserungen zu finden und umzusetzen.
Der Schlüssel hierfür liegt in ihrer offenen Evolutionssuchstrategie:
Indem sie neue Intelligent Agenten aus der bestehenden Bibliothek von Intelligent Agenten generiert, kann die DGM mehrere Evolutionspfade parallel erkunden.
Weniger leistungsstarke „Vorfahren“-Intelligent Agenten spielen eine Schlüsselrolle bei der Entdeckung neuer Methoden und Funktionen und vermeiden ein vorzeitiges Konvergieren.
Darüber hinaus haben die Verbesserungen der DGM eine breite Übertragbarkeit:
Ein für Claude 3.5 Sonnet optimierter Intelligent Agent kann auch die Leistung bei der Verwendung von o3-mini oder Claude 3.7 Sonnet verbessern.
Im Polyglot-Bench hat die Selbstverbesserung bei Python-Aufgaben auch die Leistung bei Aufgaben in anderen Sprachen wie Rust, C++ und Go verbessert.
Über die Autoren
Schließlich möchten wir die Autoren dieser Studie vorstellen.
Die erste Autorin dieser Studie ist Jenny Zhang