Terence Tao empfiehlt AlphaEvolve: Es löst 67 verschiedene mathematische Probleme und übertrifft die besten menschlichen Lösungen in mehreren schwierigen Aufgaben.
Terry Tao empfiehlt erneut AlphaEvolve.
In einer neuen gemeinsam mit DeepMind-Senioringenieur Bogdan Georgiev und anderen verfassten Studie bezeichnet Terry Tao AlphaEvolve als ein neues, leistungsstarkes Werkzeug für mathematische Entdeckungen.
Genauer gesagt haben sie mit AlphaEvolve 67 mathematische Probleme untersucht, die verschiedene Bereiche wie Kombinatorik, Geometrie, mathematische Analysis und Zahlentheorie umfassen.
Es wurde festgestellt, dass AlphaEvolve in Bezug auf Skalierbarkeit, Robustheit und Interpretierbarkeit traditionellen Werkzeugen überlegen ist.
Das Wichtigste ist, dass AlphaEvolve bereits in der Lage ist, neue mathematische Konstruktionen autonom zu entdecken und bei einigen Problemen die bisher besten menschlichen Ergebnisse zu übertreffen.
Autonome Entdeckung neuer mathematischer Konstruktionen durch KI
Bei den Tests an 67 Problemen hat AlphaEvolve nicht nur viele bekannte optimale Lösungen reproduziert, sondern auch in vielerlei Hinsicht seine einzigartige Entdeckungskapazität gezeigt.
Ein wichtiges Ergebnis ist, dass AlphaEvolve in der Lage ist, neue mathematische Konstruktionen autonom zu entdecken, die der Menschheit bisher verborgen waren.
Beispielsweise bei der Bearbeitung des Nikodym-Mengenproblems hat die vom System erzeugte anfängliche Konstruktion zwar noch nicht die optimale Lösung erreicht, aber es hat den menschlichen Forschern “ein ausgezeichnetes Sprungbrett für menschliche Intuition” geboten.
Auf der Grundlage der vom KI-System bereitgestellten Struktur haben die Forscher durch manuelle Vereinfachung und intuitive Ableitung schließlich eine bessere Konstruktion gefunden, die die bekannte obere Schranke verbessert. Das Ergebnis dieser Mensch-Maschine-Kollaboration wird als eigenständige mathematische Studie veröffentlicht.
Ähnlich hat AlphaEvolve auch bei der arithmetischen Kakeya-Vermutung eine ähnliche Rolle gespielt.
Das System hat nicht nur eine bekannte untere Schranke von 1,61226 auf 1,668 verbessert, sondern die vom System konstruierte Lösung (die in ihrer Form einer diskreten Gauß-Verteilung ähnelt) hat auch die menschlichen Mathematiker dazu angeregt, neue asymptotische Beziehungen aufzustellen. Die entsprechenden Ergebnisse werden ebenfalls bald veröffentlicht.
Diese Fähigkeit, die menschliche Forschung anzuregen, hängt eng mit der Interpretierbarkeit der von AlphaEvolve ausgegebenen Ergebnisse zusammen.
Das System erzeugt in den meisten Fällen strukturierte Programmcode, anstatt unverständliche Black-Box-Ergebnisse. Dies ermöglicht es den menschlichen Experten, die gefundenen Muster leicht zu analysieren und zusammenzufassen und daraus allgemeine mathematische Formeln abzuleiten.
Das Problem des Bauklotzstapels ist ein hervorragendes Beispiel für diese Eigenschaft.
Bei diesem Problem hat das System zunächst ein logisch korrektes rekursives Programm zur Berechnung der Platzierung der Bauklötze erzeugt. Während der anschließenden Entwicklung hat die interne Large Language Model (LLM) des Systems die Logik dieses Codes analysiert und ihn autonom in ein kürzeres und effizienteres explizites Programm umgewandelt.
Dieses endgültige Programm zeigt deutlich die mathematische Beziehung zwischen der optimalen Lösung und den harmonischen Zahlen (harmonic numbers) auf, was vollständig mit den bekannten theoretischen Formeln übereinstimmt und die Fähigkeit des Systems zeigt, die mathematische Essenz aus komplexen Lösungen zu extrahieren.
Außer der Klarheit der Lösungen hat AlphaEvolve auch eine starke Robustheit bei verschiedenen Arten von Problemen gezeigt.
Es kann hochdimensionale Parameterspaces, komplexe geometrische Beschränkungen und auf Monte-Carlo-Simulation basierende approximative Bewertungsfunktionen effektiv verarbeiten.
Hier ist beispielsweise das Problem der minimalen Dreiecksdichte.
Die Forscher haben zunächst eine einfache Bewertungsfunktion entworfen, aber das System hat schnell die Nicht-Konvexität des Problemraums ausgenutzt und durch “Täuschen” der Bewertungsfunktion eine unmögliche Punktzahl erreicht, die die theoretische optimale Lösung übertrifft.
Um dieses Problem zu lösen, haben die Forscher eine robusterere neue Bewertungsfunktion entworfen, die auf der Lipschitz-Stetigkeit (Lipschitz type bounds) des Problems basiert.
Nach dem Wechsel zu dieser komplexeren kontinuierlichen Bewertungsfunktion hat AlphaEvolve nicht länger von lokalen Fallen in die Irre geführt werden lassen und hat schnell die bekannte, korrekte theoretische optimale Lösung erreicht.
Außerdem hat AlphaEvolve eine ausgezeichnete Generalisierungsfähigkeit. Betrachten wir die Aufgabe 6 der Internationalen Mathematik-Olympiade (IMO) 2025.
Die Forscher haben das System nur dann bewertet, wenn die Eingabe n eine vollkommene Quadratzahl war. Diese “Informationsbegrenzung” hat AlphaEvolve stattdessen gezwungen, die gemeinsamen strukturellen Muster hinter diesen spärlichen Beispielen zu suchen, anstatt sich auf jede einzelne n “überanzupassen” (overfitting).
Schließlich hat das System erfolgreich eine allgemeine Konstruktion entdeckt und ausgegeben, die für alle vollkommenen Quadratzahlen n optimal ist, was seine Fähigkeit zur Induktion zeigt.
In der praktischen Anwendung ist AlphaEvolve äußerst effizient und kann mit nur wenigen hochwertigen Hinweisen betrieben werden. Die Studie zeigt, dass Hinweise von Fachleuten (expert guidance) oft die Qualität der endgültigen Konstruktion deutlich verbessern können, was darauf hinweist, dass das System auf menschliche Eingaben sehr empfindlich reagiert.
Zugleich unterstützt das System in seiner Architektur die Parallelisierung, was es den Forschern ermöglicht, die Exploration gleichzeitig an mehreren Problembeispielen oder verschiedenen Parametersettings desselben Problems durchzuführen und erfolgreiche Suchstrategien automatisch zu übertragen. Dies ist besonders effizient bei der Bearbeitung von geometrischen Problemen mit mehreren Parametern.
Arbeitsmodi von AlphaEvolve
AlphaEvolve ist kein System mit einem einzigen Prozess, sondern passt sich durch verschiedene “Arbeitsmodi” an verschiedene Arten von mathematischen Problemexplorationsaufgaben an.
Das System arbeitet hauptsächlich in zwei verschiedenen Modi - dem “Suchmodus” (search mode) und dem “Verallgemeinerungsmodus” (generalizer mode).
Der “Suchmodus” ist der am häufigsten verwendete Modus des Systems. Sein Ziel ist es, effizient die optimalen mathematischen Konstruktionen zu entdecken, ohne sich um die Interpretierbarkeit oder Allgemeingültigkeit des Konstruktionsprozesses zu kümmern. In diesem Modus evolviert AlphaEvolve nicht direkt die Programme, die die Konstruktionen erzeugen, sondern die Programme, die zur Suche nach Konstruktionen verwendet werden.
Jedes evolvierte Programm ist selbst eine “Suchheuristik” (search heuristic).
Der Bewertungsalgorithmus gibt diesen Heuristiken ein festes Zeitbudget. Die Punktzahl der Algorithmen hängt von der Qualität der besten von ihnen innerhalb dieses Budgets gefundenen Konstruktion ab.
Diese Methode löst die Geschwindigkeitsdifferenz zwischen der LLM-Aufrufung (langsam und teuer) und der traditionellen lokalen Suche (schnell und günstig) - ein langsamer LLM-Aufruf wird verwendet, um eine effiziente Suchstrategie zu generieren, die anschließend Millionen von Kandidatenkonstruktionen autonom erkunden kann, indem sie eine große Anzahl von kostengünstigen Berechnungen auslöst.
Das System evolviert eine Reihe von “Verbesserungsfunktionen” (improver functions), die sich dynamisch an den Suchprozess anpassen. Zu Beginn bevorzugen sie möglicherweise Heuristiken, die eine breite Exploration durchführen, während sie sich beim Annähern an die optimale Lösung zu feineren, auf das spezifische Problem zugeschnittenen Algorithmen entwickeln.
Der “Verallgemeinerungsmodus” ist hingegen anspruchsvoller.
Sein Ziel ist es, dass AlphaEvolve ein allgemeines Programm schreibt, das ein Problem für beliebige gegebene Parameter n lösen kann. Die Bewertung des Systems erfolgt anhand der Gesamtdurchführung des Programms bei einer Reihe verschiedener n-Werte.
Die Erwartung bei diesem Modus ist, dass das System durch das Beobachten der von ihm bei kleinen n-Werten gefundenen optimalen Lös