Die letzte Prüfung der Agenten: Fable 5 unterliegt überraschenderweise GPT 5.5
Wer hätte gedacht, dass die Entlarvung so schnell kommen würde!!
Gerade hat die UC Berkeley einen neuen Benchmark vorgestellt, der als „Das letzte Examen für Agenten“ angepriesen wird.
Es bringt die derzeit stärksten AI-Agenten in die Prüfung und lässt sie echte Arbeit erledigen –
3D-Modelle in Siemens NX erstellen, Spielwelten in Unreal Engine aufbauen und Effekte in Adobe After Effects zusammenstellen.
Das Ergebnis ist verblüffend:
Im schwierigsten Abschnitt haben die bisher als stärkste angesehenen Claude Fable 5 und GPT 5.5 beinahe keine Punkte erzielt.
Was passiert, wenn man die Schwierigkeit etwas senkt? Es gibt zwar Punkte, aber das Ergebnis ist ziemlich überraschend –
GPT 5.5 hat sogar Claude Fable 5 knapp geschlagen.
Habe ich das richtig gehört? Das von Firma A neu veröffentlichte stärkste Modell Claude Fable 5 wurde von GPT 5.5, das vor einigen Monaten veröffentlicht wurde, geschlagen??
Bisher war Fable 5 auf fast allen gängigen Benchmarks gegenüber GPT 5.5 überlegen – 80,3 % gegen 58,6 % auf SWE-Bench Pro und 64,5 % gegen 52,2 % auf Humanity’s Last Exam.
Aber in dieser „echten Arbeit“-Prüfung hat sich die Situation umgedreht.
Dieser neue Benchmark heißt Agents’ Last Exam (ALE), und das Team dahinter hat eine beeindruckende Vorgeschichte. Frühere bekannte Benchmarks wie MMLU, MATH, CyberGym und ExploitGym wurden von ihnen entwickelt.
Der Name wird vermutlich von dem „Humanity’s Last Exam“ (Das letzte Examen der Menschheit) von Scale AI abgeleitet. Diesmal wird nicht die Grenze des menschlichen Wissens getestet, sondern die Fähigkeiten von AI-Agenten bei der Arbeit.
Ehrlich gesagt, seit diesem Test sind diejenigen, die immer behaupteten, dass Agenten die menschliche Arbeit ersetzen würden, jetzt wirklich schweigend geworden …
„Das letzte Examen für Agenten“: Der Sieger ist GPT 5.5!
Schauen wir uns zunächst die vollständige Rangliste an.
Nach dem wichtigsten Kriterium, der Aufgabenbestandenerate, hat GPT 5.5 sowohl den ersten als auch den zweiten Platz belegt:
Der erste Platz geht an GPT 5.5 in Kombination mit OpenAIs eigenem Codex-Framework, mit einer Bestandenerate von 24,0 %.
Der zweite Platz geht ebenfalls an GPT-5.5, diesmal in Kombination mit dem ALE Claw-Framework, mit einer Bestandenerate von 23,0 %.
(ALE Claw ist ein von dem Team entwickeltes Baseline-Agent, das zusammen mit kommerziellen Frameworks wie Codex, Claude Code und Cursor CLI an der Prüfung teilnimmt)
Erst auf dem dritten Platz finden wir Claude Fable 5 – in Kombination mit Claude Code, mit einer Bestandenerate von 22,0 %.
Es wird noch interessanter, wenn man weiter nach unten schaut.
Der vierte, fünfte und achte Platz gehen alle an GPT 5.5, nur mit verschiedenen Frameworks.
Unter den ersten zehn Plätzen ist GPT 5.5 fünfmal vertreten. Zusammen mit GPT 5.4 auf dem sechsten Platz nehmen OpenAI-Modelle sechs Plätze ein.
Und was ist mit der Claude-Familie?
Fable 5 belegt den dritten Platz, Opus 4.7 den neunten (18,4 %) und Opus 4.8 den zehnten und letzten Platz (15,8 %). Die Überlegenheit von OpenAI ist offensichtlich.
Kein Wunder, dass die OpenAI-Forscher frohherzig Posts schreiben und sich wie zu Weihnachten freuen:
Aber neben den Ergebnissen gibt es noch einige andere Signale, die sich lohnen, genauer betrachtet zu werden.
Erstens ist die Obergrenze erstaunlich niedrig.
Die Bestandenerate des Siegers beträgt nur 24 %, und der höchste Gesamtwert liegt bei nur 45,8 %.
Das bedeutet, dass selbst bei der am wenigsten strengen Bewertungsmethode, der „Teilpunktzahl“, der stärkste Agent weniger als die Hälfte der Punkte erreichen kann.
Alle Aufgaben stammen aus Projekten, die von menschlichen Experten bereits abgeschlossen wurden – die Fertigstellungsrate von menschlichen Experten beträgt theoretisch 100 %.
Zweitens ist die Geldverschwendung von Claude erstaunlich hoch.
In dieser Rangliste wurde eine neue Spalte „Geschätzte Gesamtkosten“ hinzugefügt, die die Unterschiede in den Kosten deutlich macht:
Fable 5 hat für die Durchführung aller Aufgaben 2.315 US-Dollar ausgegeben, Opus 4.8 1.838 US-Dollar und Opus 4.7 1.144 US-Dollar.
Und was ist mit GPT-5.5?
Das teuerste Codex-Framework kostet nur 566 US-Dollar, und Cursor CLI nur 174 US-Dollar.
D.h., Fable 5 hat mehr als viermal so viel Geld wie Codex ausgegeben, und dennoch ist seine Leistung um zwei Prozentpunkte schlechter.
Drittens ist auch der Unterschied in der Effizienz auffällig.
Ale Claw hat für die Durchführung aller Aufgaben 47 Stunden und 20 Minuten gebraucht, Cursor CLI nur 67 Stunden.
Und Opus 4.8? 451 Stunden – fast 19 Tage.
Es erledigt die wenigste Arbeit, braucht die meiste Zeit und kostet am meisten (gibt es wirklich ein Modell, das all das gleichzeitig leisten kann?).
Natürlich, wenn man nur die beiden stärksten Modelle, Claude Fable 5 und GPT 5.5, betrachtet, hat GPT 5.5 immer noch einen deutlichen Zeitvorteil.
Und die auffälligste Zahl ist immer noch die Null.
ALE teilt die Aufgaben in drei Schwierigkeitsstufen auf:
Near-Term (in naher Zukunft lösbar)
Full-Spectrum (umfassend)
Last-Exam (das ultimative Problem)
Im schwierigsten Abschnitt beträgt die durchschnittliche Bestandenerate aller gängigen Konfigurationen nur 2,6 %. Die meisten Modelle, darunter GPT 5.5 und Fable 5, haben keine Punkte erzielt.
Die Kernbotschaft dieser Ergebnisliste ist einfach: Es ist eines, gute Prüfungsergebnisse zu erzielen, und ein anderes, echte Arbeit zu erledigen.
Ein guter Prüfungsteilnehmer ist nicht unbedingt ein guter Arbeiter. Dies gilt auch in der Welt der Künstlichen Intelligenz.
Was ist ALE?
Um zu verstehen, warum ALE diese „Klassenbester“ in die Enge treibt, müssen wir zuerst verstehen, wie es sich von früheren Prüfungen unterscheidet.
Das frühere Humanity’s Last Exam (HLE) wurde Anfang 2025 von Dan Hendrycks und Scale AI entwickelt. Es besteht aus 2.500 interdisziplinären Schwierigkeiten und ist im Wesentlichen eine schriftliche Prüfung –
Man bekommt eine Frage und muss eine Antwort geben. Auch wenn die Fragen schwierig sind, handelt es sich um statische Wissensabfragen.
ALE ist völlig anders. Es prüft, was man „tun kann“.
Der Hauptautor Yiyou Sun hat es auf 𝕏 sehr direkt ausgedrückt:
Es gibt viele Vorhersagen, dass AI-Agenten zwischen 2026 und 2027 fast alle menschlichen Arbeiten übernehmen werden. Deshalb haben wir diese Prüfung entwickelt, um diese Behauptung zu überprüfen.
Jede Aufgabe in ALE stammt aus einem Projekt, das von einem menschlichen Experten bereits abgeschlossen wurde und deckt 55 Branchenunterbereiche ab, darunter quantitative Trading, Genomanalyse, Luft- und Raumfahrttechnik, Architektur, Hirnbildgebung, Animations- und Spezialeffekte, Rechtsforschung …
Das gesamte System basiert auf dem US-amerikanischen Bundesberufsklassifikationssystem (ONET)*. Im Grunde genommen werden die Aufgaben nach den Anforderungen des „wirklichen Arbeitsmarktes“ gestellt.
Das Team, das die Aufgabenstellt, ist auch sehr beeindruckend:
Über 300 Branchenexperten aus über 100 Institutionen, darunter MIT, Harvard, Stanford, Oxford, Caltech, ETH Zurich auf der akademischen Seite und Goldman Sachs, JPMorgan, Meta, Amazon, Adobe, Oracle auf der industriellen Seite.
Snorkel AI hat über das Open Benchmarks Grants-Programm die Finanzierung unterstützt.
Die Prüfungsform ist nicht das Tippen von Antworten, sondern die direkte Bedienung des Computers.
ALE verwendet das sogenannte GCUA-Framework (Generalist Computer-Use Agent, allgemeiner Computer-Nutzungs-Agent), das den Agenten volle GUI- und Befehlszeilenrechte gibt –
Es kann Mausklicks, Tastatureingaben, Skriptschreiben und Webbrowsing durchführen, alles, was ein Mensch auf einem Computer tun kann.
Es gibt keine Einschränkungen bei der Methode, nur das Ergebnis zählt.
Die eingereichten „Arbeiten“ werden von deterministischem Code automatisch bewertet.
Keine subjektiven Eindrücke. Keine menschlichen Richter. Vollständig reproduzierbar. (Ohne Gefühl, ohne menschliche Richter, vollständig reproduzierbar)
Dadurch wird ein altes Problem vieler früherer Benchmarks behoben: Der Bewertungsalgorithmus kann selbst getäuscht werden.
Darüber hinaus hat ALE eine weitere Maßnahme gegen Betrug –
Nur etwa 10 % der Aufgaben (etwa 150) werden veröffentlicht, die restlichen über 1.300