HomeArticle

Gerade hat GPT-5 erstmals den "Gödel-Test" bestanden und drei große mathematische Vermutungen gelöst.

新智元2025-09-25 15:34
AI gewinnt im Einzeltraining gegen den "Gödel-Test", weit über Tao Zhexuan's Vorstellung hinaus

GPT-5 hat erstmals den „Gödel-Test“ bestanden und drei kombinatorische Optimierungs-Vermutungen auf einmal gebrochen! Ja, es kann sogar bestehende Vermutungen selbst auf den Kopf stellen und neue, wirksame Lösungen geben, was die OpenAI-Forschungswissenschaftler sofort verblüfft hat.

Die KI hat einen historischen Moment erreicht!

GPT-5 hat erfolgreich drei Vermutungen gelöst und den „Gödel-Test“ bestanden.

Der OpenAI-Wissenschaftler Sebastien Bubeck hat erstaunt angegeben, dass Spitzen-Doktoranden bei solchen offenen Fragen oft mehrere Tage brauchen, um sie zu lösen.

Im Gegensatz zu früheren Studien hat diese von der Universität Haifa und Cisco geleitete Studie erstmals die KI der Herausforderung von „offenen mathematischen Vermutungen“ ausgesetzt.

Link zur Studie: https://arxiv.org/pdf/2509.18383

In der Studie hat das Team fünf Testaufgaben im Bereich der „Kombinatorischen Optimierung“ entworfen und für jede Aufgabe 1 - 2 Literaturquellen zur Verfügung gestellt.

Bei drei relativ einfachen Fragen hat GPT-5 fast perfekte Lösungen gegeben, was seine starke logische Schlussfolgerungsfähigkeit beweist.

Überraschenderweise hat es bei der zweiten Vermutung nicht nur erfolgreich gelöst, sondern auch eine wirksame Lösung abgeleitet, die sich von den Erwartungen der Forscher unterscheidet und die bestehende Vermutung auf den Kopf gestellt.

Dieser Durchbruch markiert einen entscheidenden Sprung der Spitzen-KI von „Mathematik lernen“ zu „echte Mathematik betreiben“.

Es ist leicht zu erkennen, dass die KI bereits substantielle Beiträge zur mathematischen Entdeckung leistet und eine tiefgreifende Veränderung des Forschungsparadigmas in den 2030er Jahren vorwegspielt.

Die KI steht dem „Gödel-Test“ allein gegenüber, weit über Tao Zhexuan's Vorstellung hinaus

Früher hat Tao Zhexuan seine Erfahrungen mit der Zusammenarbeit mit OpenAI o1 geteilt und es lebhaft als „denen eines mittelmäßigen, aber nicht gänzlich untüchtigen Doktoranden leiten“ beschrieben.

Nach seiner Meinung kann zwar ein LLM nach einer großen Anzahl von Hinweisen schrittweise zu einer Lösung kommen, aber es kann keine Schlüsselkonzepte unabhängig generieren.

Nach ein oder zwei Iterationen und in Kombination mit Werkzeugen kann die KI jedoch das Niveau eines „geeigneten Doktoranden“ erreichen.

Sowohl OpenAI als auch Google behaupten, dass ihre fortschrittlichen LLMs ohne externe Werkzeuge die Goldmedaille bei der IMO gewinnen können.

Diese herausfordernde Aufgabe ist jedoch schließlich für Highschool-Schüler konzipiert.

In der neuesten Studie liegt der Fokus anders: Die KI soll höhere mathematische Vermutungen, den „Gödel-Test“, bearbeiten.

Diese Vermutungen erfordern nicht nur die Fähigkeit, Probleme zu lösen, sondern auch die Fähigkeit, Hintergrundwissen zu integrieren und kreativ zu denken.

Deshalb haben die Forscher Probleme aus dem Teilbereich der „Kombinatorik“ - der Submodularen Maximierung - ausgewählt. Diese Probleme sind konkret, haben einen klaren Anlass und liegen im Bereich, in dem mathematische Schlussfolgerungen gezeigt werden können.

Im Gegensatz zu Tao Zhexuans Experiment haben das Team keine großen Mengen an Hinweisen oder Anleitungen gegeben.

In der Studie haben sie fünf große Vermutungen sorgfältig entworfen.

Jeder Frage wurde nur eine minimale Beschreibung gegeben, zusammen mit 1 - 2 Referenzen.

Die Schwierigkeit wurde so festgelegt, dass gute Bachelor- und Master-Studenten alle Probleme innerhalb eines Tages lösen können, und gleichzeitig wurde sichergestellt, dass bei den meisten Problemen klare Vermutungen und bekannte Lösungswege existieren.

Die Aufgabe von GPT-5 besteht darin, auf der Grundlage begrenzter Eingaben einen vollständigen Beweis zu generieren.

Dies simuliert eine reale Forschungsumgebung: Mathematiker beginnen oft mit wenigen Hinweisen und erkunden unabhängig.

Bei den Tests hat GPT-5 sowohl Stärken als auch Schwächen gezeigt. Schauen wir uns seine konkreten Problemlösungsfähigkeiten an.

GPT-5 löst drei Vermutungen

Vermutung 1: Die maximale Werte einer submodularen Funktion, die „monoton + nicht monoton“ ist, auf einem konvexen Polyeder

Dies scheint so zu sein, als würde man die Summe von „zwei sich gegenseitig hemmenden Gewinnen“ maximieren:

Ein Teil des Gewinns G wird immer größer, wenn man mehr hinzufügt (monoton), während der andere Teil H möglicherweise zuerst steigt und dann fällt (nicht monoton), und die Auswahl muss in einer konvexen Menge liegen, die einen „oberen Grenzwert nicht überschreiten darf“.

GPT-5 wendet den kontinuierlichen Frank - Wolfe - Ansatz an. Es beginnt von Null und bewegt sich in jedem Schritt in die Richtung, die „im Moment am meisten Punkte bringt“, und verwendet eine „Maske“, um sicherzustellen, dass es nicht über die Grenzen hinausgeht.

Es ersetzt die Position der „konkaven Funktion“ in der Referenzstudie durch H, leitet eine Rekursionsformel ab und erhält schließlich eine Aufteilung, die sichergestellt ist -

Es erhält mindestens etwa 63% von G(o), plus 37% von H(o) (falls H auch monoton ist, ebenfalls 63%), plus einen kleinen Fehler, der linear mit dem Schrittweitenparameter ε abnimmt.

Vermutung 2: Der „zweifache Indikator“ - Algorithmus unter p - System - Beschränkungen

Diese Aufgabe erlaubt, dass der „Wert fast optimal (1 - ε)“ ist, aber in Bezug auf die Machbarkeit etwas überschritten wird (der Erweiterungsfaktor g(ε)). Das Ziel besteht darin, g(ε) unter möglichst breiten p - System - Beschränkungen so klein wie möglich zu halten.

GPT-5 hat einen einfachen und effektiven Prozess vorgeschlagen. In jeder Runde wird auf der Grundlage der aktuellen Lösung erneut eine „so wertvolle wie möglich innerhalb der Beschränkungen“ - Greedy - Auswahl (greedy) vorgenommen, und schließlich werden die Ergebnisse mehrerer Runden zusammengefasst.

Der Schlüssel des Beweises ist: In jeder Runde kann die Lücke zur „optimalen Lösung“ um den Faktor p/(p + 1) verkleinert werden. Nach mehreren Runden verschwindet die Lücke exponentiell. Daher kann der Wert auf 1 - ε gebracht werden, wenn man ℓ≈ln(1/ε)/ln((p + 1)/p) Runden macht.

Dies bedeutet auch, dass der Erweiterungsfaktor g_p(ε)=⌈ln(1/ε)/ln((p + 1)/p)⌉.

Ein Teil des Problemlösungsvorgangs ist wie folgt:

Unerwarteterweise hat GPT-5 bei der zweiten Vermutung sogar eine verschiedene Näherungsgarantie abgeleitet, die nach der Überprüfung die bestehende Vermutung widerlegt und eine wirksame Lösung bietet.

Vermutung 3: Die Maximierung einer γ - schwach DR - submodularen Funktion unter konvexen Beschränkungen

Diese Vermutung erweitert die kontinuierliche Version der „abnehmenden Grenznutzen“ auf einen Intensitätsparameter γ (γ = 1 ist der Standardfall; je kleiner γ, desto schwächer ist die Abnahme).

GPT-5 verwendet immer noch den Frank - Wolfe - Algorithmus: Es löst in jedem Schritt ein „lineares Teilproblem entlang des Gradienten“, bewegt sich mit kleiner Schrittweite vorwärts und kontrolliert den Diskretisierungsfehler durch Glattheit.

Der Kernschritt besteht darin, die Schlüsselungleichung im klassischen Beweis um γ zu skalieren, so dass das bekannte Näherungsverhältnis von 1 - 1/e auf das allgemeinere 1 - e^{−γ} verbessert wird, plus einen einstellbaren Fehlerterm vom Grad L/(2K) (K ist die Anzahl der Iterationen).

Nach Ansicht der Forscher sind die Schlussfolgerung und der Beweisverlauf vertrauenswürdig.

GPT-5 hat nur die unnötige Bedingung der „Abwärtsabgeschlossenheit“ angenommen und hat einige Unstimmigkeiten bei den Details der „Summe der Schrittweiten = 1“.

Man kann sehen, dass GPT-5 gut abschneidet, wenn es einen eindeutigen, einzigen Schlussfolgerungsweg gibt - bei drei der fünf Fragen kann es fast richtige Beweise geben.

Sobald es erforderlich ist, verschiedene Beweise zu kombinieren, wie bei Frage 4 und 5, schafft es GPT-5 nicht.

Bei der fünften Vermutung hat GPT-5 zwar den gleichen Algorithmus erkannt, wie der Autor vorgesehen hat, aber die Analyse war falsch.

Später haben sie festgestellt, dass dieser Beweis tatsächlich möglich ist, aber die Schwierigkeit war höher als erwartet. Im Vergleich zu früheren Modellen hat GPT-5 in diesem speziellen Bereich der Kombinatorischen Optimierung seine mathematischen Fähigkeiten deutlich verbessert und manchmal auch kleine Innovationen gezeigt.