StartseiteArtikel

GPT-5 wurde schamlos mit einer Null bestraft. Alle Spitzenkünstlichen Intelligenzen (AI) scheiterten. Die Legende über Dr. Altmans fähige KI auf Doktorlevel ist gebrochen.

新智元2025-09-16 08:37
Künstliche Intelligenz muss hartkernig sein.

Die besten Large Language Models (LLMs) haben in der von AAI vorgestellten FormulaOne-Benchmark kläglich gescheitert: Mit drei aufeinander aufbauenden Schwierigkeitsstufen erreichte GPT-5 bei den fortgeschrittenen Aufgaben nur etwa 4 % richtige Antworten, und in der tiefsten Stufe gab es keine richtigen Antworten du rchaus; Grok 4 und o3 Pro haben alle Aufgaben fehlgeschlagen. Diese Benchmark generiert Probleme basierend auf MSO-Logik und dynamischer Programmierung in Graphen, was nahe an reale Optimierungsprobleme wie Pfadplanung herankommt und dazu dient, die algorithmische Schlussfolgerungstiefe jenseits von Wettbewerbs-Programmierung zu messen.

Sam Altman hat auf der Veröffentlichungsfeier von GPT-5 eine These aufgestellt.

„Künftig wird jeder in seiner Tasche einen künstlichen Intelligenz-Assistenten der Doktorwürde haben, der jederzeit Ratschläge geben kann.“

Nach der Veröffentlichung von GPT-5 wurde es weltweit heftig getestet, und der API-Nutzungsumfang ist sprunghaft angestiegen.

Natürlich gibt es auch Diskussionen, die sich auf emotionale Aspekte wie „Bringt mir GPT-4o zurück“ konzentrieren.

Wichtig ist jedoch, dass Altman ständig betont, dass GPT-5 eine „Doktorwürde“ in der Schlussfolgerungsfähigkeit besitzt.

Stimmt das wirklich?

So, eine harte Prüfung namens FormulaOne hat die besten Modelle der Welt bloßgestellt.

Die Aufgaben in FormulaOne sind in drei Stufen unterteilt, und jede Stufe ist schwieriger als die vorherige.

Link zur Studie:https://arxiv.org/pdf/2507.13337

Was war das Ergebnis? Etwas enttäuschend.

Bei den Grundaufgaben haben die KIs noch zurechtgekommen, und die richtige Antwortrate war noch akzeptabel. GPT-5 war das einzige Modell, das fast 50 % erreichte.

Aber bei den fortgeschrittenen Aufgaben hat sich die Situation dramatisch geändert.

Selbst GPT-5 hat nur 4 % der Aufgaben richtig gelöst. Die anderen Modelle haben noch schlechter abgeschnitten.

Was die schwierigsten „tiefsten Probleme“ angeht? Alle Modelle haben komplett durchgefallen. Sie haben blanke Bogen vorgelegt und alle null Punkte erreicht.

Die FormulaOne-Testbenchmark hat sich selbst den Namen gegeben: Maßstab für die algorithmische Schlussfolgerungstiefe jenseits von Wettbewerbs-Programmierung.

Diese Benchmark wurde von einer Firma namens AAI entwickelt, deren Website ist: doubleai.com.

AAI ist ein forschungsorientiertes KI-Startup, das von Amnon Shashua, Mitbegründer von Mobileye und Professor an der Hebrew University, initiiert wurde. Es wurde im August 2023 in Jerusalem gegründet und war lange Zeit „halb-unsichtbar“.

Amnon Shashua hat 2020 den Dan David Prize im Bereich Künstliche Intelligenz erhalten und wurde 2022 von der Automotive Hall of Fame als Innovator in der Mobilität ausgezeichnet.

1999 gründete Shashua gemeinsam Mobileye, das 2014 den größten Börsengang in der Geschichte Israels absolvierte.

2017 wurde das Unternehmen von Intel für 15,3 Milliarden US-Dollar übernommen.

2022 kehrte das Unternehmen erneut an die Börse zurück und listete sich an der NASDAQ auf.

KI muss robust sein

Wie weit ist die heutige KI noch von einem echten Experten entfernt?

Echte Experten können harte Nüsse knacken und treiben die Grenzen der Wissenschaft voran.

Deshalb müssen wir die KI mit echten Herausforderungen konfrontieren.

Aktuelle Benchmark-Tests geben oft nicht die volle Tiefe des KI-Verständnisses wieder.

Trotz einiger bemerkenswerter Erfolge wie OpenAIs Score von 2724 auf CodeForces oder den Goldmedaillen bei den internationalen Informatik-Olympiaden.

Diese Erfolge verdecken den ernüchternden Realität: Die Fähigkeiten, die für diese Wettbewerbe trainiert werden, decken nicht alle Schlussfolgerungsfähigkeiten ab, die für die Lösung von großen realen Forschungsfragen erforderlich sind.

Beispielsweise sind Aufgaben wie die Optimierung der globalen Lieferkette, die Verwaltung von großen Stromnetzen und das Design von widerstandsfähiger Netzwerkinfrastruktur um Größenordnungen schwieriger und erfordern einen algorithmischen Einblick, der weit über die typische Wettbewerbs-Programmierung hinausgeht.

FormulaOne umfasst 220 neue, auf Graphen basierende Probleme der dynamischen Programmierung. Diese Probleme sind in drei Kategorien unterteilt, die von mittlerer Schwierigkeit bis zu forschungsrelevanter Schwierigkeit reichen.

FormulaOne ist eine Benchmark, die sich am Schnittpunkt von Graphentheorie, Logik und Algorithmen befindet und vollständig innerhalb der Trainingsverteilung von modernen Modellen liegt.

Diese Probleme sind äußerst herausfordernd und erfordern eine Reihe von Schlussfolgerungsschritten, einschließlich topologischen und geometrischen Einblicken, mathematischem Wissen, kombinatorischen Überlegungen und präziser Implementierung.

FormulaOne hat drei wesentliche Eigenschaften.

Erstens hat es wirtschaftlichen Wert und bezieht sich auf reale Optimierungsprobleme in großen Maßstäben, wie sie in Pfadplanung, Scheduling und Netzwerkdesign auftreten.

Zweitens wird es aus einer einzigen, hochgradig ausdrucksstarken logischen Struktur, der monadischen zweiten Ordnung (MSO) in Graphen, generiert, was den Weg für die automatische Generierung von Problemen in großem Maßstab ebnet – es eignet sich daher sehr gut für die Erstellung von Umgebungen für Reinforcement Learning (RL).

Drittens hängen viele Probleme eng mit den Spitzenforschungsthemen und zentralen Vermutungen in der theoretischen Informatik zusammen, wie etwa der Strong Exponential Time Hypothesis (SETH).

Warum kommt es bei den Modellen in den „tiefsten“ Aufgaben zu einem Konzept-Kollaps, auch wenn sie in Wettbewerbs-Programmierung die besten menschlichen Teilnehmer übertreffen können?

Die Probleme in der „tiefsten“ Stufe erfordern eine sehr tiefe Schlussfolgerungsfähigkeit, die von den bestehenden Modellen nicht erreicht werden kann.

FormulaOne erfordert möglicherweise einen qualitativ anderen Ansatz und teilt ihn über eine Echtzeit-Rangliste und ein Evaluierungsframework mit der Community.

Die Probleme in FormulaOne sind sehr kompakt und bestehen nur aus einem oder zwei Sätzen, die jeder Student verstehen kann, aber ihre Lösung erfordert Kreativität und tiefe Schlussfolgerungen.

Obwohl diese Probleme normalerweise einfach zu beschreiben sind, ist ihre Lösung keineswegs offensichtlich. Die Lösbarkeit dieser großen Klasse von Problemen wird durch ein algorithmisches Meta-Theorem von Courcelle gewährleistet, das grob so lautet:

Für jeden hinreichend baumartigen Graphen kann jedes Problem, das in einer ausdrucksstarken formalen Logik – der monadischen zweiten Ordnung (MSO) – definiert werden kann, durch einen dynamischen Programmierungsalgorithmus gelöst werden, dessen Laufzeit linear zur Ordnung des Graphen ist.

Die Probleme in FormulaOne stammen aus einer einzigen unendlichen Familie: der monadischen zweiten Ordnung (MSO) in Graphen.

Einfach ausgedrückt, sind dies natürliche Probleme der dynamischen Programmierung in Graphen.

Obwohl viele Probleme im Allgemeinen NP-schwer sind, werden sie in „baumartigen“ Graphen lösbar.

In diesem Fall können diese Probleme durch einen dynamischen Programmierungsalgorithmus in linearer Zeit gelöst werden – dieser Algorithmus arbeitet in kleinen Graphenfenstern, die als „bags“ bezeichnet werden.

„Bags“ werden durch eine Struktur namens Baumzerlegung erzeugt, die die Knoten des Graphen in eine Reihe überlappender Mengen organisiert, die selbst in Baumform angeordnet sind.

Dann kann der Algorithmus diesen Baum von „bags“ durchlaufen und das Problem Stück für Stück mithilfe der dynamischen Programmierung lösen.

Dieser Prozess umfasst das Entwerfen eines „Zustands“, der alle notwendigen Informationen über die teilweise Lösung in einem Bag zusammenfasst, und die Definition, wie sich dieser Zustand ändert, wenn Knoten hinzugefügt, vergessen oder Bags zusammengeführt werden.

Warum sind die Probleme in der „tiefsten“ Stufe so schwierig?

Was macht die „tiefste“ Schwierigkeitsstufe so viel schwieriger als die „flache“ Stufe? Mit anderen Worten, wie kann man das Versagen der modernen Modelle bei diesen Problemen erklären?

Fehlt es an Daten? Oder liegt es an einem niedrigen Niveau an Fachwissen in dynamischer Programmierung?

Nein, die modernen Modelle haben in algorithmischen Programmierungswettbewerben und Olympiaden bereits das Niveau der besten Menschen erreicht, und dynamische Programmierung (DP) ist eine der Schlüsseltechniken in diesen Wettbewerben.

Im Gegensatz dazu werden Wettbewerbsaufgaben wie auf CodeForces normalerweise so konstruiert: Ein Mensch denkt sich einen sehr klugen Trick (oder vielleicht zwei) aus und entwirft dann ein Problem um diesen Trick herum.

Sobald die Teilnehmer den Trick verstehen, können sie normalerweise schnell eine kurze Lösung schreiben. Etwas ähnliches gilt auch für die „flache“ Stufe.

Im Gegensatz dazu beinhalten reale Probleme sowie