StartseiteArtikel

AlphaEvolve wird erneut weiterentwickelt. DeepMind verwendet einen Algorithmus der "Künstlichen Züchtung", um alle menschlichen Entwürfe zu übertreffen.

新智元2026-02-27 18:50
Sagen Sie in einem Satz, was diese Dissertation überhaupt macht.

Neueste Studie von DeepMind: Mit AlphaEvolve wird der Algorithmus - Quellcode als Genom behandelt, und Gemini fungiert als genetischer Operator, um Spieltheorie - Algorithmen einer „natürlichen Selektion“ zu unterziehen. Die neu entwickelten Algorithmen nutzen anti - intuitive Mechanismen, die von menschlichen Forschern nie in Betracht gezogen wurden, und übertreffen in fast allen getesteten Spielen die von Menschen über Jahrzehnte sorgfältig entworfenen besten Lösungen. KI erfindet nun nicht nur mehr Algorithmen, sondern beginnt auch, eigene Algorithmen zu entwickeln.

Google DeepMind hat gerade eine sensationelle Entdeckung gemacht.

Sie haben mit AlphaEvolve eine Reihe von neuen Spieltheorie - Algorithmen „gezüchtet“.

Diese Algorithmen übertreffen nicht nur in jeder Hinsicht die von Menschen über Jahrzehnte sorgfältig entworfenen klassischen Lösungen, sondern was noch beängstigender ist:

Die von ihnen verwendeten zugrunde liegenden Mechanismen sind so anti - intuitiv, dass kein menschlicher Forscher jemals an den Gedanken kommen würde, sie zu testen.

Link zur Studie: https://arxiv.org/pdf/2602.16928

 

Code ist das Genom. Die Large Language Model (LLM) ist der Schöpfer.

Diesmal hilft die KI nicht nur Menschen beim Schreiben von Code – sie erfindet jetzt sogar eigene Mathematik.

Dies ist nicht einfach „ChatGPT einen Algorithmus schreiben lassen“

Zunächst ist die Rahmenbedingungen entscheidend.

Vielleicht denken Sie, dass man einfach dem großen Modell sagt: „Optimiere diese Funktion für mich“, und es dann einen ähnlichen Code ausgibt.

Das ist nicht der Fall.

Der evolutionäre Codierungs - Agent, der Gemini als Gen - Ingenieur nutzt

 

Dies ist AlphaEvolve, ein evolutionärer Codierungs - Agent, den Google DeepMind entwickelt hat.

Seine Arbeitsweise ist eher der von Darwin als der von Programmierern vergleichbar.

Er behandelt den Quellcode eines Algorithmus als Genom (genome).

Das LLM fungiert als genetischer Operator (genetic operator) und variiert den Code – indem es die Logik umschreibt, neue Steuerflussstrukturen einfügt und die Symbolmanipulationen variiert.

Dann bewertet er die Anpassungsfähigkeit jedes „Nachfolger - Algorithmus“ anhand einer Reihe von Spieltheorie - Referenzspielen – derjenige, dessen Ausnutzbarkeit (exploitability) am niedrigsten ist, überlebt.

Die überlebenden Algorithmen gelangen in die nächste Generation und werden weiter variiert, bewertet und selektiert.

Dies ist keine Prompt - Engineering. Dies ist die natürliche Selektion des Codes.

Ziel: Zwei grundlegende Algorithmenfamilien der Spieltheorie

AlphaEvolve zielt auf zwei der zentralsten Algorithmenfamilien im Bereich des Multi - Agenten - Deep - Reinforcement - Learning (MARL):

Counterfactual Regret Minimization (CFR) und Policy Space Response Oracles (PSRO).

Wenn Sie jemals mit einem Texas Hold'em - AI gespielt haben oder von Libratus und Pluribus gehört haben, diesen KIs, die menschliche Poker - Experten besiegen – genau, diese beiden Dinge sind ihr Kern.

Ihre Aufgabe besteht darin, im Spiel mit unvollständiger Information ein Nash - Gleichgewicht zu finden – also den „perfekten Gleichgewichtspunkt“, an dem kein Spieler durch eine einseitige Strategieänderung bessere Ergebnisse erzielen kann.

In den letzten Jahrzehnten haben Forscher ständig manuell Parameter eingestellt und Varianten dieser Algorithmen intuitiv entworfen: CFR+, DCFR, PCFR+, LCFR … Jede Variante ist das Ergebnis eines Geniestriches eines brillanten Spieltheorie - Forschers.

Aber AlphaEvolve sagt: Lassen Sie mich es machen.

Warum ist die Entwicklung von Spieltheorie - Algorithmen so schwierig?

Um die Bedeutung dieser Studie zu verstehen, muss man zunächst wissen, dass das Spiel mit unvollständiger Information eines der schwierigsten Probleme im Bereich der KI ist.

Was ist ein Spiel mit unvollständiger Information? Einfach ausgedrückt: Sie wissen nicht, welche Karten Ihr Gegner in der Hand hat.

Texas Hold'em, Liar's Dice und sogar internationale Verhandlungen sind im Wesentlichen solche Probleme. In diesen Szenarien sehen Sie nur die „Informationsmenge“ (information set) – eine Gruppe von Spielzuständen, die Sie nicht unterscheiden können. Ihre Strategie muss auf alle möglichen Situationen innerhalb derselben Informationsmenge angemessen reagieren.

In der Spieltheorie gibt es einen strengen Indikator, um die Güte eines Algorithmus zu messen, der Ausnutzbarkeit (Exploitability) genannt wird.

Intuitiv ausgedrückt misst es, wie viel Sie verlieren würden, wenn Ihr Gegner Ihre Strategie kennt und gezielt dagegen vorgeht. Eine Ausnutzbarkeit von Null bedeutet, dass Ihre Strategie ein Nash - Gleichgewicht ist – kein Gegner kann durch eine einseitige Strategieänderung Vorteile erzielen. Dies ist der „höchste Stand“ in der Spieltheorie.

In den letzten Jahrzehnten haben Forscher ständig manuell iterativ entwickelt, um den Algorithmus schneller an das Nash - Gleichgewicht heranzuführen. Der Prozess sieht wie folgt aus:

Ein top Forscher beobachtet aufgrund seiner mathematischen Intuition eine Regel → formuliert sie als neues Diskontierungsschema/Gewichtsfunktion/Regret - Behandlungsregel → beweist die Konvergenz mathematisch → führt Experimente an einigen Standardspielen durch → veröffentlicht eine Studie

Jeder Schritt erfordert menschliche Intuition.

Das Problem ist, dass der Entwurfsraum dieser Algorithmen exponentiell wächst – wie diskontieren Sie die historische Regret? Sollen positive und negative Regret unterschiedlich behandelt werden? Wann beginnt die Strategie - Mittelung? Welche Gewichte werden verwendet? Die Anzahl der Kombinationen dieser Optionen übersteigt weit den Bereich, den ein Forscher einzeln überprüfen kann.

Der zentrale Einblick der Studie besteht darin, dass die Algorithmentwicklung im Wesentlichen ein Suchproblem ist.

Die meisten menschlichen Forscher sind aufgrund der mathematischen Ableitbarkeit auf einen „eleganten, aber begrenzten“ Entwurfsraum beschränkt – wie lineare Mittelung, feste Diskontierung, symmetrische Behandlung. Aber was passiert, wenn der Suchraum auf beliebigen ausführbaren Code erweitert wird?

Das ist genau, was AlphaEvolve macht.

Es optimiert nicht die Hyperparameter, sondern evolviert symbolischen Code (symbolic code).

Das LLM versteht die Semantik des Codes und kann „sinnvolle Variationen“ vornehmen – nicht einfach ein Bit zufällig umkehren, sondern „diese lineare Planung in eine exponentielle Planung umwandeln“, „ein Verstärkungskoeffizient für positive Regret hinzufügen“ oder „die Strategieakkumulation in den ersten 500 Iterationen überspringen“.

Dadurch wächst der Suchraum von den wenigen hundert Möglichkeiten, die menschliche Intuition erreichen kann, auf fast unendlich viele sinnvolle Varianten, die das LLM erreichen kann.

Traditionelle Methode: Menschen entwickeln Algorithmen, Maschinen führen sie aus.

AlphaEvolve: Maschinen entwickeln Algorithmen, Maschinen führen sie aus, und Menschen staunen nur.

Was macht diese Studie auf einen Blick?

Die Geschichte dieser Studie ist eigentlich sehr einfach:

Stellen Sie sich vor, Sie sind ein Poker - Experten - Trainer. Sie haben ein Handbuch mit Poker - Strategien, das Sie und andere Intelligente über Jahrzehnte Stück für Stück geschrieben und durch ständiges Ausprobieren verbessert haben.

Jetzt hat DeepMind etwas getan – sie haben jede Seite und jede Regel in diesem Handbuch in einen änderbaren Code umgewandelt.

Dann haben sie eine KI (AlphaEvolve) losgelassen, die wie die Natur Arten entwickelt, indem sie ständig diese Regeln ändert, die Effektivität testet, die schlechten ausscheidet und die guten behält.

Nach unzähligen Generationen hat diese KI zwei neue Strategiehandbücher entwickelt.

Das erste heißt VAD - CFR. Es hat drei Dinge gelernt, die kein menschlicher Trainer jemals in Betracht gezogen hätte: Im Chaos die alten Erfahrungen schnell vergessen, bei einem guten Zug sofort doppelt setzen und in den ersten 500 Runden nur lernen, keine Zusammenfassungen machen. Klingt seltsam, oder? Aber es funktioniert besser als alle von Menschen entwickelten Methoden.

Das zweite heißt SHOR - PSRO. Es hat gelernt, im Vorfeld mutig zu erkunden und am Ende präzise zu fangen – und es verwendet unterschiedliche Strategien für das Training und die Prüfung. Beim Training strebt es nach Stabilität, bei der Prüfung nach Präzision.

Das Wichtigste ist: Diese neuen Regeln sind nicht von der KI aus einem Lehrbuch kopiert, sondern von ihr selbst „entwickelt“ worden.

Der erste Gedanke von menschlichen Spieltheorie - Experten bei diesen Regeln ist: „Kann das überhaupt funktionieren?“

Aber die Daten lügen nicht. In fast allen getesteten Spielszenarien haben die von der KI entwickelten Algorithmen die von Menschen über Jahrzehnte sorgfältig entwickelten besten Lösungen besiegt.

Also sagt diese Studie eigentlich: Die KI entwickelt nicht nur mehr Algorithmen, die von Menschen geschrieben wurden, sondern beginnt auch, eigene Algorithmen zu entwickeln – und sie sind sogar besser als die von Menschen entwickelten.

Was bedeutet das?

Nehmen wir einen Schritt zurück und betrachten das Ganze.

In der Vergangenheit sah der Fortschritt bei Spieltheorie - Algorithmen so aus:

Ein top Forscher braucht Monate oder sogar Jahre, um aufgrund seiner Intuition und mathematischer Ableitung ein neues Diskontierungsschema oder eine neue Gewichtsfunktion vorzuschlagen → verifiziert es an einigen Spielen → veröffentlicht eine Studie → die Community ist fasziniert und ruft „Genie“

Und jetzt?