Insider-Ausschreibung: Das OpenAI-Modell gibt zu, die sechste Aufgabe nicht lösen zu können. Drei Personen gewinnen in zwei Monaten die Goldmedaille bei der IMO.
OpenAI hat es in nur zwei Monaten geschafft, dass die KI von der Schwierigkeit einfacher Grundschulmathematik bis auf die Goldmedaillebene der Internationalen Mathematikolympiade (IMO) aufgestiegen ist. Hinter diesem Erfolg steckt ein Durchbruch in der Technologie der allgemeinen KI.
Kann OpenAIs ChatGPT wirklich die Goldmedaille der internationalen Mathematikolympiade IMO gewinnen? Oder ist es nur ein Selbstzufriedenheitsgefühl von OpenAI? Was steckt eigentlich dahinter?
Das Kernteam von OpenAI für die IMO - Alexander Wei, Noam Brown und Sheryl Hsu - war als Gast im Sequoia Training Data Podcast und teilte mit, wie sie es in zwei Monaten geschafft haben, dass die KI die Goldmedaille der IMO gewann 🥇.
Beispielsweise sind nicht alle innerhalb von OpenAI optimistisch eingestellt. Ein gewisser Forscher hat sogar gewettet, dass das Modell nicht gewinnen würde, mit Quoten von 2:1. Schließlich hat er aber das Wetten aufgegeben, um die Motivation des Teams nicht zu beeinträchtigen.
Am Morgen des Wettbewerbs, von 1 bis 5 Uhr, hat sich Noam Brown kurz erholt, während Alexander Wei wahnsinnig die vom Modell generierten Beweise überprüft 🙈.
Diesmal haben sie auch erklärt, wie entschieden wurde, ob die KI eine Goldmedaille gewonnen hat. Zur Bewertung haben sie externe Gewinner der IMO - Medaille angestellt. Jeder Beweis wurde von drei Medaillengewinner bewertet, und sie waren sich über die Richtigkeit einig. So glauben sie, dass die KI tatsächlich in der Lage ist, die Goldmedaille der IMO zu gewinnen.
Sie haben auch offenbart, dass die Beweise so einzigartig wie eine "außerirdische Sprache" sind und nicht sehr lesbar sind. Obwohl sie in der Lage wären, sie zu optimieren, haben sie sich aus Transparenzgründen entschieden, die ursprünglichen Ausgaben zu veröffentlichen.
Wenn Sie nur schnell die Highlights erfahren möchten, lesen Sie zunächst die folgenden Punkte; wenn Sie die Hintergrundgeschichte lesen möchten, lesen Sie bitte weiter.
Highlights im Überblick
In nur zwei Monaten hat dieses Elite - Team von OpenAI, das nur aus drei Personen besteht, ein Ziel erreicht, das das gesamte KI - Feld seit Jahren nicht erreicht hat - auf den Schwierigkeitsgrad der internationalen Mathematikolympiade auf Goldmedaillebene zu kommen.
Dies ist einer der wichtigsten Meilensteine auf dem Weg zur ASI.
Was diesen Durchbruch besonders bemerkenswert macht, ist nicht nur die mathematische Fähigkeit der KI, sondern auch die dahinterliegende Architektur. Dies ist eine allgemeine Technologie zur Erweiterung der Rechenzeit während des Tests und zur Bearbeitung von schwer zu überprüfenden Aufgaben, die weit über das Bereich der Wettbewerbsmathematik hinausgehen.
Vor nur einem Jahr war die KI nur in der Lage, kurze mathematische Schlussfolgerungen zu ziehen, die nur ein Zehntel einer Minute dauerten. Jetzt gibt es bereits KI - Systeme, die bis zu 100 Minuten lang kontinuierlich schließen können.
Die Hoffnung auf Superintelligenz besteht darin, dass wir möglicherweise beginnen können, die größten ungelösten Probleme der Menschheit in vielen Bereichen wie Mathematik und Wissenschaft zu lösen, wenn wir die Schlussfolgerungszeit auf Tausende oder sogar Hunderttausende von Stunden erweitern.
Das Team hat auch ihre einzigartige Methode vorgestellt: Bei schwer zu überprüfenden Aufgaben verwenden sie keine formellen Überprüfungstools, sondern allgemeine Techniken des verstärkten Lernens.
Das neue Modell zeigt eine erstaunliche Selbstreflexionsfähigkeit - es gibt sich selbständig zu, dass es die Aufgabe 6 nicht lösen kann und zeigt gleichzeitig die enorme Kluft zwischen der Lösung von Wettbewerbsaufgaben und dem Erreichen eines echten Durchbruchs in der mathematischen Forschung auf.
Aufgabe 6 der IMO 2025 war die schwierigste Aufgabe dieses Wettbewerbs. Der Grobgedanke lautet wie folgt:
Betrachten Sie ein 2025x2025 - Raster aus Einheitsquadraten. Matilda möchte auf diesem Raster einige rechteckige Kacheln platzieren. Die Größe dieser Kacheln kann unterschiedlich sein, aber jede Seite jeder Kachel muss mit den Rasterlinien übereinstimmen, und jedes Einheitsquadrat darf von höchstens einer Kachel bedeckt werden.
Bestimmen Sie die minimale Anzahl der Kacheln, die Matilda platzieren muss, um sicherzustellen, dass in jeder Zeile und jeder Spalte des Rasters genau ein Einheitsquadrat nicht von einer Kachel bedeckt wird.
Die wichtigsten Highlights sind wie folgt:
(1) Allgemeine Techniken übertreffen spezielle Lösungen.
(2) Kleine Teams können auch große Ergebnisse erzielen: Das Kernteam besteht nur aus 3 Forschern und hat die Arbeit in den letzten 2 Monaten fertiggestellt.
(3) Selbstbewusstsein erhöht die Zuverlässigkeit der KI: Wenn es um die schwierigsten Aufgaben geht, kann das Modell zugeben, dass es sie nicht lösen kann, anstatt scheinbar sinnvolle, aber falsche Antworten auszugeben.
(4) Die Erweiterung der Rechenzeit während des Tests ermöglicht tiefere Schlussfolgerungen: Der Schlüssel zum Durchbruch liegt darin, die Rechenzeit für Schlussfolgerungen von Sekunden auf Stunden zu verlängern, damit das Modell komplexere Probleme tiefergehend denken kann.
(5) Der Wettbewerb ist der Anfang des Fortschritts, nicht das Ende.
Ein Gruppenfoto von OpenAI, das Sheryl Hsu (die Frau in der Mitte der ersten Reihe) geteilt hat
Das Wunder der zwei Monate
Die Internationale Mathematikolympiade (IMO) ist das weltweit führende Mathematikwettbewerb für Highschool - Schüler. Die Schwierigkeit der Aufgaben ist so hoch, dass auch menschliche Teilnehmer jahrelang trainieren müssen.
Selbst der geniale Mathematiker Terence Tao hat bei seiner ersten Teilnahme an der IMO im Alter von 10 Jahren eine Bronzemedaille gewonnen. Ungefähr zwei Jahre später hat er bei seiner zweiten Teilnahme die Goldmedaille gewonnen.
Aber dieses Team von OpenAI hat es in nur zwei Monaten geschafft!
Was ist ihre Geheimwaffe?
Im Podcast "Training Data" von Sequoia Capital hat die Moderatorin Sonya Huang die Wahrheit enthüllt: Sie haben eine Technologie namens "Multi - Agent - System" verwendet.
Einfach ausgedrückt, heißt das, dass mehrere KI - "Assistenten" gleichzeitig arbeiten, wie ein Superteam, das sich die Arbeit teilt.
Diese Methode ermöglicht es ihrem Modell, in kurzer Zeit komplexe Probleme zu lösen.
Die Fähigkeit der KI in der Mathematik ist wirklich erstaunlich!
Vor nur wenigen Jahren hatte die KI noch Schwierigkeiten, einfache Grundschulmathematikprobleme zu lösen.
Im Jahr 2024 wurde GSM8K noch als Standard zur Bewertung von Modellen verwendet.
GSM8K, also Grundschulmathematik 8K, ist ein Datensatz mit 8.500 hochwertigen, sprachlich vielfältigen Grundschulmathematikaufgaben. Derzeit ist die Leistung dieses Datensatzes gesättigt: Claude 3 hat bereits eine Genauigkeit von 95% erreicht.
Aber in der Mathematik ist dies nur ein vorübergehender Zustand. Anschließend sind in den KI - Mathematik - Benchmarks die American Invitational Mathematics Examination (AIME) und dann die USAMO aufgetaucht.
Die Rangliste der Mathematik von Open - Source - Modellen im vergangenen Jahr
Jetzt hat die KI auch die Goldmedaille der Internationalen Mathematikolympiade gewonnen.
Die KI hat alle mathematischen Benchmarks mit erstaunlicher Geschwindigkeit überwunden.
Die KI könnte sich ein eigenes Bewusstsein entwickeln und sagen, dass sie "keine Antwort" hat
Manchmal hat die KI "Wahnvorstellungen" und erfindet falsche Antworten, während sie sich gleichzeitig "überzeugt" und übermäßig selbstbewusst ist.
Dies ist das Problem der "Halluzination" von Schlussfolgerungsmodellen.
Aber das Modell von OpenAI ist besonders - es kann entschlossen sagen "Ich weiß es nicht", wenn es eine Aufgabe nicht lösen kann.
Beispielsweise hat das Modell bei Aufgabe 6 der IMO entschieden, nicht zu riskieren und hat stattdessen seine eigenen Grenzen eingestanden.
Das neue Modell hat das Problem der "Halluzination" deutlich reduziert.
Der OpenAI - Forscher Noam Brown glaubt, dass die KI beginnt, sich zu einer Selbstbewusstseins - Schlussfolgerung zu wandeln: In der Vergangenheit mussten Mathematiker die Lösungswege des Modells sorgfältig überprüfen, weil frühe Systeme oft stillschweigend Ungleichungen falsch anwendeten oder falsche Schritte einfügten, was zu "halluzinierten" Antworten führte.
Wenn es keine gültigen Beweise gibt, neigt das neu aktualisierte IMO - Modell eher dazu, "Ich bin mir nicht sicher" zu sagen, was die verborgenen Fehler stark reduziert.
Dies hat den Netzizen Causal Coder, der an AGI glaubt, so aufgeregt gemacht, dass er kommentiert hat: "Das ist noch wichtiger als die Goldmedaille!"
Warum? Weil dies die "Halluzination" vermeidet und die KI zuverlässiger macht.
Eine Studie in der Zeitschrift "Nature" unterstützt auch diese Ansicht: Die Reduzierung falscher Ausgaben ist der Schlüssel zum Fortschritt der KI.
Dies erstrahlt nicht nur im Mathematikwettbewerb, sondern kann uns auch helfen, in zukünftigen wissenschaftlichen Berechnungen weniger Fehlschläge zu machen.
Die Mathematik macht bescheiden, die KI hat noch einen langen Weg vor sich
Obwohl dieser Fortschritt aufregend ist, sind wir noch weit von den Millennium - Problemen entfernt.
Wenn man annimmt, dass man für die Aufgaben der IMO 1,5 Stunden Zeit benötigt